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当下 大 数据 技术 发 展 变化 日 新 月 异 ， 大 数据 应 用 已 经 遍及 工业 和 社会 生活 的 方方面面 ， 原 有 的 数据 管理 理论 体系 与 大 数据 产业 应 用 之 间 
的 差距 日 益 加 大 ， 而 工业 界 对 于 大 数据 人 才 的 需求 却 急剧 增加 。 大 数据 专业 人 才 的 培养 是 新 一 轮 科技 较量 的 基础 ， 高 等 院 校 承 担 着 大 数据 人 
才 培 养 的 重任 。 因 此 大 数据 相关 课程 将 逐渐 成 为 国内 高 校 计算 机 相关 专业 的 重要 课程 。 但 纵 观 大 数据 人 才 培 养 课 程 体系 尚 不 尽 如 人 意 ， 多 是 
已 有 课程 的 “ 冷 拼盘 ”， 顶 多 是 加 点 “调料 ”， 原 材料 没有 新 鲜 感 。 现 阶段 无 论 多 么 新 多 么 好 的 人 才 培 养 计划 ， 都 只 能 在 20 世 纪 六 七 十 年 代 
编写 的 计算 机 知识 体系 上 施 教 ， 无 法 把 当下 大 数据 带 给 我 们 的 新 思维 、 新 知识 传导 给 学 生 。 


为 此 我 们 意识 到 ， 缺 少 基础 性 工作 和 原始 积累 ， 就 难以 培养 符合 工业 界 需要 的 大 数据 复合 型 和 交叉 型 人 才 。 因 此 和 急需 在 思维 和 理念 方面 
进行 转变 ， 为 现 有 的 课程 和 知识 体系 按 大 数据 应 用 需求 进行 延展 和 补充 ， 加 入 新 的 可 以 因材施教 的 知识 模块 。 我 们 肩负 着 大 数据 时 代 知 识 更 
新 的 使 命 ， 每 一 位 学 者 都 有 责任 和 义务 去 为 此 “ 增 砖 添 瓦 ”。 


在 此 背景 下 ， 我 们 策划 和 组 织 了 这 套 大 数据 管理 丛书 ， 和 希望 能 够 培养 数据 思维 的 理念 ， 对 原 有 数据 管理 知识 体系 进行 完善 和 补充 ， 面 向 
新 的 技术 热点 ， 提 出 新 的 知识 体系 /知识 点 ， 拉 近 教 材 体系 与 大 数据 应 用 的 距离 ， 为 受 教 者 应 对 现代 技术 带 来 的 大 数据 领域 的 新 问题 和 挑战 ， 
扫除 障碍 。 我 们 相信 ， 假 以 时 日 ， 这 些 著 作 汇 溪 成 河 ， 必 将 对 未 来 大 数据 人 才 培养 起 到 “基石 ”的 作用 。 


丛书 定位 : 面向 新 形势 下 的 大 数据 技术 发 展 对 人 才 培 养 提 出 的 挑战 ， 旨 在 为 学 术 研 究 和 人 才 培 养 提 供 可 供 参考 的 “基石 ”。 虽 然 是 一 些 
不 起 眼 的 “砖头 瓦 块 ”， 但 可 以 为 大 数据 人 才 培 养 积 累 可 用 的 新 模块 (新 素材 ) ， 弥 补 原 有 知识 体系 与 应 用 问题 之 前 的 鸿沟 ， 力 图 为 现 有 的 
数据 管理 知识 查 漏 补缺 ， 聚 少 成 多 ， 最 终 形成 适应 大 数据 技术 发 展 和 人 才 培 养 的 知识 体系 和 教材 基础 。 


ABHA: 丛书 借鉴 Morgan & Claypool Publishers 出 版 的 Synthesis Lectures on Data Management， 特 色 在 于 选 题 新 颖 ， 短 小 精 
湛 。 选 题 新 络 即 面向 技术 热点 ， 弥 补 现 有 知识 体系 的 漏洞 和 不 足 (或 延伸 或 补充 ) ， 内 容 涵盖 大 数据 管理 的 理论 、 方 法 、 技 术 等 诸多 方面 。 
短小 精湛 则 不 求 系统 性 和 完备 性 ， 但 每 本 书 要 自 成 知识 体系 ， 重 在 阐述 基本 问题 和 方法 ， 并 辅 以 例题 说 明 ， 便 于 施 教 。 


丛书 组 织 : 丛书 采用 国际 学 术 出 版 通行 的 主编 负责 制 ， 为 此 特 邀 中 国人 民 大 学 孟 小 峰 教 授 (email: xfmeng@ruc.edu.cn) 担任 丛书 主 
， 负 责 丛书 的 整体 规划 和 选 题 。 责 任 编辑 为 机 械 工业 出 版 社 华章 分 社 姚 蓄 编 辑 (email: yaolei@hzbook.com) 。 


当今 数据 洪流 席卷 全 球 ， 而 中 国正 在 努力 从 数据 大 国 走 向 数据 强国 ， 大 数据 时 代 的 知识 更 新 和 人 才 培 养 刻 不 容 缓 ， 虽 然 我 们 的 力量 有 
限 ， 但 聚 少 成 多 ， 积 小 致 巨 。 因 此 ， 我 们 在 设计 本 套 丛 书 封面 的 时 候 ， 特 意 选 择 了 清 代 苏 州 籍 宫廷 画家 徐 扬 描 绘 苏 州 风物 的 巨 幅 长 卷 画 作 
《 姑 苏 繁华 图 》 (原名 《盛世 滋生 图 》) 作为 底 图 以 表达 我 们 的 美好 愿景 ， 每 本 书 选 取 这 幅 巨 卷 的 一 部 分 ， 一 步 步 见证 和 记录 数据 管理 领域 
的 学 者 在 学 术 研究 和 工程 应 用 中 的 探索 和 实践 ， 最 终 形成 适应 大 数据 技术 发 展 和 人 才 培 养 的 知识 图 谱 ， 共 同 谱写 出 我 们 这 个 大 数据 时 代 的 盛 


世 华 章 。 


在 此 期 望 有 志 于 大 数据 人 才 培 养 并 具有 丰富 理论 和 实践 经 验 的 学 者 和 专业 人 员 和 能够 加 入 到 这 套 书 的 编写 工作 中 来 ， 共 同 为 中 国 大 数据 研 
究 和 人 才 培 养 贡献 自己 的 智慧 和 力量 ， 共 筑 属 于 我 们 自己 的 “时 代 记忆 ”。 欢 迎 读者 对 我 们 的 出 版 工作 提出 宝贵 意见 和 建议 。 
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在 大 数据 时 代 ， 数 据 驱动 的 数据 分 析 与 挖掘 已 成 为 各 领域 决策 的 客观 依据 。 然 而 ， 由 于 不 同 的 数据 源 有 不 同 的 描述 实体 的 方式 ， 并 且 可 
能 存在 拼写 错误 、 缩 写 方式 不 同 、 描 述 格式 不 同 、 属 性 值 缺 失 、 属 性 值 随 着 时 间 演 化 等 特点 ， 导 致 描述 真实 世界 同一 实体 的 不 同 数据 对 象 存 
在 差异 。 实 体 识别 将 一 个 或 多 个 数据 源 中 描述 真实 世界 同一 实体 的 数据 对 象 识别 出 来 ， 提 升 集成 的 大 数据 资源 的 质量 。 
实体 识别 最 早出 现在 人 口 普查 和 医疗 卫生 等 社会 公共 服务 领域 ， 很 早 就 受到 公共 机 构 的 重视 和 依赖 ， 从 而 促进 了 实体 识别 的 研究 。 实 体 
识别 已 经 有 几 十 年 的 研究 历史 ， 出 现 了 许多 有 效 的 实体 识别 技术 。 在 大 数据 时 代 的 今天 ， 实 体 识别 在 多 个 领域 有 着 广泛 的 应 用 需求 ， 包 括 客 
户 关系 管理 、 人 口 普 查 、 医 疗 卫生 、 网 购 比价 、 国 家 安全 、 引 文 数据 库 、 垃 圾 邮件 检测 、 关 联 的 数据 (Linked Data) 、 机 器 阅读 等 。 
本 书 作 者 多 年 来 一 直 从 事 数 据 集成 相关 研究 ， 实 体 识别 是 提升 数据 集成 质量 的 关键 技术 之 一 。 在 国家 973 计 划 、 国 家 自然 科学 基金 、 


家 863 计 划 等 课题 的 支持 下 ， 作 者 分 别针 对 关系 数据 对 象 识别 、 复 杂 数 据 空间 中 的 数据 对 象 识别 、 具 有 时 间 特 性 的 数据 对 象 识别 、 隐 私 保 护 
下 的 数据 对 象 识别 等 方面 进行 了 深入 研究 。 本 书 基于 已 有 相关 研究 ， 综 述 了 当前 已 有 的 实体 识别 技术 ， 目 的 是 为 相关 研究 者 提供 一 定 借鉴 作 








用 。 
于 戌 负责 本 书 前 言 部 分 ， 申 


本 书 共 分 八 章 ， 主 要 内 容 包括 概述 、 相 似 度 计 算 算 法 、 实 体 识别 的 分 块 技术 、 典 型 的 基于 机 器 学 习 的 实体 识别 技术 和 基于 关系 的 实体 识 
别 技术 ， 以 及 新 型 的 实体 识别 技术 (包括 基于 时 间 模 型 的 实体 识别 、 基 于 众 包 的 实体 识别 、 隐 私 保 护 下 的 实体 识别 ) 等 。 
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潜 等 。 全 书 由 申 德 荣 统 


TSAR. 
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本 书 由 东北 大 学 计算 机 科学 与 工程 学 院 计算 机 科学 系 申 
德 荣 、 于 戈 、 孙 琛 琛 负责 第 1 章 ， 韩 妹 敏 、 寇 月 负责 第 2 章 ， 肾 铁 铮 负责 第 3 章 ， 孙 琛 琛 、 聂 铁 铮 负责 第 4 章 ， 寇 月 负责 第 5 章 ， 申 
敏 负责 第 6 章 ， 孙 琛 琛 、 韩 蛛 敏 负责 第 7 章 ， 申 德 荣 、 孙 琛 琛 负责 第 8 章 。 参 加 本 书 撰写 的 还 有 硕士 研究 生 刘 宏 、 汪 


稿 ， 由 于 戈 教授 主 审 。 
我 们 在 撰写 本 书 过 程 中 ,覆盖 了 经 典 实体 识别 技术 和 新 型 的 实体 识别 技术 ， 跟 踪 了 该 学 科 的 新 发 展 和 新 技术 ， 力 求 本 书 具有 先进 性 和 实 


用 性 。 但 由 于 作者 学 识 有 限 ， 一 定 存在 许多 不 足 之 处 ， 敬 请 专家 和 学 者 批评 指正 。 


第 1 章 ”概述 


1.1 实体 识别 问题 的 提出 
大 数据 时 代 ， 数 据 生成 的 速度 和 更 新 频率 远 超过 去 [1] ， 商 业 组 织 、 公 共 部 门 和 政府 部 门 都 在 面临 大 量 数据 的 冲击 ， 高 效 地 处 理 和 分 析 

这 些 数据 有 助 于 商业 决策 、 公 共 政 策 制定 、 政 府 职 能 提升 和 国家 安全 维护 。 数 据 管理 与 数据 挖掘 是 数据 研究 的 核心 领域 。 数 据 管理 聚焦 于 高 

效 地 集成 、 存 储 和 查询 海量 数据 ; 数据 挖掘 则 致力 于 从 已 有 的 数据 中 发 掘 潜在 的 信息 和 价值 。 

实现 数据 信息 互补 ， 为 后 续 的 


在 大 规模 信息 系统 和 大 型 的 数据 挖掘 项 目 中 ， 经 常 需要 将 来 自 多 数据 源 的 数据 进行 集成 ， 提 高 数据 质量 


数据 分 析 与 挖掘 提供 一 个 完整 的 、 干 净 的 、 统 一 的 数据 集 。 集 成 后 的 数据 集 比 之 前 分 裂 的 多 个 数据 集 的 价值 更 大 ， 可 以 从 中 挖掘 出 更 多 的 知 
识 ， 为 用 户 提供 更 多 有 价值 的 信息 。 在 此 过 程 中 ， 一 个 非常 重要 的 步骤 是 实体 识别 -13] ， 即 将 描述 相同 真实 世界 实体 的 不 同 数据 对 象 识别 
出 来 ， 从 而 在 数据 融合 时 ， 能 够 将 描述 相同 实体 的 数据 对 象 合并 成 一 个 干净 的 、 统 一 的 、 健 全 的 数据 记录 ， 提 高 集成 数据 的 质量 。 


实体 识别 的 直接 原因 是 数据 宛 余 的 存在 。 根 据 数据 源 是 否 单一 ， 可 以 将 数据 宛 余 分 为 两 类 : 单数 据 源 数据 宛 余 和 跨 数据 源 数据 宛 余 。 单 
数据 源 数据 宛 余 通常 由 于 在 加 入 新 的 数据 记录 的 时 候 没有 执行 严格 的 重复 检测 或 者 完全 没有 执行 重复 检测 。 比 如 ， 一 个 大 型 商场 (在 不 同城 
市 有 分 店 ) 的 客户 信息 记录 ， 同 一 个 客户 可 能 进行 了 多 次 客户 信息 登记 ， 而 接待 人 员 没有 发 现 这 些 重复 登记 。 造 成 这 个 状况 的 原因 多 种 多 
样 ， 如 每 次 登记 的 姓名 有 差别 、 工 作 单位 不 同 、 家 庭 住址 不 同等 。 跨 数据 源 的 数据 宛 余 则 更 加 显而易见 ， 当 将 多 个 数据 集合 成 一 个 数据 集 
时 ， 来 自 不 同 数据 集 的 数据 记录 很 有 可 能 描述 相同 的 实体 。 比 如 ， 两 家 公司 实行 合并 后 ， 对 它们 的 客户 信息 进行 整合 ， 需 要 将 他 们 共同 的 客 
户 信息 找 出 来 。 跨 数据 源 的 实体 识别 中 ， 模 式 匹配 是 前 提 。 

实体 识别 中 的 数据 对 象 〈 即 数据 记录 ) 描述 真实 世界 的 实体 ， 通 常 包括 多 个 属性 ， 如 姓名 、 年 龄 和 地 址 等 。 这 里 的 数据 对 象 是 结构 化 
的 ， 符 合 一 定 的 数据 格式 ， 比 如 客户 信息 的 数据 记录 包括 姓名 属性 、 年 龄 属性 、 电 话 号 码 属性 、 地 址 属性 和 工作 单位 属性 。 实 体 识别 中 最 党 
见 的 一 类 数据 对 象 是 描述 人 的 数据 对 象 ， 如 商业 数据 库 中 的 客户 记录 、 公 司 数 据 库 中 的 员工 记录 、 航 空 公司 数据 库 中 的 乘客 记录 、 医 院 数 据 
库 中 的 病人 记录 和 医疗 保险 记录 、 国 家 安全 部 门 数据 库 中 的 嫌疑 犯 记录 和 政府 数据 库 中 的 纳税 人 记录 等 [8] 。 除 了 人 ， 还 有 其 他 的 实体 类 
型 ， 如 商业 记录 、 出 版 记录 、 引 文 记录 、 产 品 记录 等 。 例 如 ， 在 商品 比价 应 用 中 ， 由 于 不 同 电 商 网 站 的 描述 格式 不 同 ， 识 别 出 哪 些 商品 记录 
描述 着 相同 的 商品 有 一 定 难度 ; 还 有 引文 记录 中 的 会 议 (或 出 版 社 ) 全 称 和 缩写 的 识别 、 作 者 单位 全 称 与 简称 的 识别 等 [] 。 








1.1 实体 识别 问题 的 提出 


大 数据 时 代 ， 数 据 生成 的 速度 和 更 新 频率 远 超过 去 [1] ， 商 业 组 织 、 公 共 部 门 和 政府 部 门 都 在 面临 大 量 数据 的 冲击 ， 高 效 地 处 理 和 分 析 
这 些 数据 有 助 于 商业 决策 、 公 共 政 策 制定 、 政 府 职能 提升 和 国家 安全 维护 。 数 据 管 理 与 数据 挖掘 是 数据 研究 的 核心 领域 。 数 据 管理 聚焦 于 高 
效 地 集成 、 存 储 和 查询 海量 数据 ; 数据 挖掘 则 致力 于 从 已 有 的 数据 中 发 掘 潜在 的 信息 和 价值 。 


在 大 规模 信息 系统 和 大 型 的 数据 挖掘 项 目 中 ， 经 常 需要 将 来 自 多 数据 源 的 数据 进行 集成 ， 提 高 数据 质量 ， 实 现 数据 信息 互补 ， 为 后 续 的 
数据 分 析 与 挖掘 提供 一 个 完整 的 、 干 净 的 、 统 一 的 数据 集 。 集 成 后 的 数据 集 比 之 前 分 裂 的 多 个 数据 集 的 价值 更 大 ， 可 以 从 中 挖掘 出 更 多 的 知 
识 ， 为 用 户 提供 更 多 有 价值 的 信息 。 在 此 过 程 中 ， 一 个 非常 重要 的 步骤 是 实体 识别 [13] ， 即 将 描述 相同 真实 世界 实体 的 不 同 数据 对 象 识别 
出 来 ， 从 而 在 数据 融合 时 ， 能 够 将 描述 相同 实体 的 数据 对 象 合并 成 一 个 干净 的 、 统 一 的 、 健 全 的 数据 记录 ， 提 高 集成 数据 的 质量 。 


实体 识别 的 直接 原因 是 数据 宛 余 的 存在 。 根 据 数据 源 是 否 单一 ， 可 以 将 数据 宛 余 分 为 两 类 : 单数 据 源 数据 宛 余 和 跨 数 据 源 数 据 宛 余 。 单 
数据 源 数据 宛 余 通常 由 于 在 加 入 新 的 数据 记录 的 时 候 没有 执行 严格 的 重复 检测 或 者 完全 没有 执行 重复 检测 。 比 如 ， 一 个 大 型 商场 (在 不 同城 
市 有 分 店 ) 的 客户 信息 记录 ， 同 一 个 客户 可 能 进行 了 多 次 客户 信息 登记 ， 而 接待 人 员 没 有 发 现 这 些 重复 登记 。 造 成 这 个 状况 的 原因 多 种 多 
样 ， 如 每 次 登记 的 姓名 有 差别 、 工 作 单位 不 同 、 家 庭 住址 不 同等 。 跨 数据 源 的 数据 元 余 则 更 加 显而易见 ， 当 将 多 个 数据 集合 成 一 个 数据 集 
时 ， 来 自 不 同 数据 集 的 数据 记录 很 有 可 能 描述 相同 的 实体 。 比 如 ， 两 家 公司 实行 合并 后 ， 对 它们 的 客户 信息 进行 整合 ， 需 要 将 他 们 共同 的 客 
户 信息 找 出 来 。 跨 数据 源 的 实体 识别 中 ， 模 式 匹配 是 前 提 。 

实体 识别 中 的 数据 对 象 〈 即 数据 记录 ) 描述 真实 世界 的 实体 ， 通 常 包 括 多 个 属性 ， 如 姓名 、 年 龄 和 地 址 等 。 这 里 的 数据 对 象 是 结构 化 
的 ， 符 合 一 定 的 数据 格式 ， 比 如 客户 信息 的 数据 记录 包括 姓名 属性 、 年 龄 属性 、 电 话 号 码 属性 、 地 址 属性 和 工作 单位 属性 。 实 体 识别 中 最 常 
见 的 一 类 数据 对 象 是 描述 人 的 数据 对 象 ， 如 商业 数据 库 中 的 客户 记录 、 公 司 数据 库 中 的 员工 记录 、 航 空 公司 数据 库 中 的 乘客 记录 、 医 院 数据 
库 中 的 病人 记录 和 医疗 保险 记录 、 国 家 安全 部 门 数 据 库 中 的 嫌疑 犯 记录 和 政府 数据 库 中 的 纳税 人 记录 等 [8] 。 除 了 人 ， 还 有 其 他 的 实体 类 








型 ， 如 商业 记录 、 出 版 记录 、 引 文 记录 、 产 品 记录 等 。 例 如 ， 在 商品 比价 应 用 中 ， 由 于 不 同 电 商 网 站 的 描述 格式 不 同 ， 识 别 出 哪些 商品 记录 
描述 着 相同 的 商品 有 一 定 难度 ; 还 有 引文 记录 中 的 会 议 (或 出 版 社 ) 全 称 和 缩写 的 识别 、 作 者 单位 全 称 与 简称 的 识别 等 [8] 。 


1.2 实体 识别 研究 的 友 展 历史 


实体 识别 起 源 于 统计 学 家 和 公共 健康 研究 领域 ， 在 单数 据 库 内 或 多 数据 库 中 识别 对 应 同一 实体 的 重复 记录 。1946 年 ，Dunn 应 用 术 
语 “ 记 录 链 接 ” (record linkage) [4] 来 描述 现实 世界 中 每 一 个 个 体 的 生命 溯源 ， 即 从 生 到 死 整个 生命 周期 中 个 体 所 经 历 的 信息 ， 如 健康 
信息 、 社 会 保障 、 结 婚 、 离 婚 等 记录 信息 。20 世 纪 50 年 代 末 和 60 年 代 初 ，Howard Newcombe 等 [13-16] 提出 应 用 计算 机 自动 处 理 实体 识 
别 过 程 ， 并 提出 了 基于 概率 的 记录 链接 方法 的 成 功 理 念 。 基 于 Newcombe 的 思想 ， 在 1969 年 ， 两 个 统计 学 家 Ilvan Fellegi 和 Alan 
Sunter [17] 为 实体 识别 引入 了 正式 的 数学 模型 。 


1999 年 ， 由 学 者 Winkler [18] 扩展 并 提高 了 最 初 的 模型 ， 最 显著 的 工作 是 引入 了 字符 串 近似 比较 函数 【13] 来 捕捉 字符 捉 的 变化 情况 ， 
以 及 应 用 期 望 (EM) 算法 [0] 来 改进 概率 记录 链接 中 匹配 参数 的 估计 。 同 时 ， 数 据 库 研 究 团队 从 数据 清洗 需求 出 发 ， 提 出 了 重复 记录 识别 
技术 [21] ， 用 于 改进 数据 库 的 质量 [22] 。 但 是 ， 数 据 库 研究 者 并 没有 采用 由 Fellegi 和 Sunter 提 出 的 基于 概率 的 匹配 方法 ， 而 是 应 用 近似 串 
比较 函数 计算 属性 相似 度 3-“4] ， 并 通过 属性 比较 来 发 现 相似 的 记录 [21， “>] 。 


随 着 数据 的 丰富 ， 计 算 机 领域 中 有 关 实体 识别 的 研究 备 受 关注 ， 尤 其 是 在 数据 挖掘、 机 器 学 习 和 信息 获取 领域 。 此 外 ， 数 据 库 和 数据 仓 
库 研究 团队 [26] 相应 地 也 提出 了 一 些 新 的 实体 识别 技术 [°7] ， 如 利用 机 器 学 习 、 自 然 语 言 处 理 和 基于 图 的 方法 来 改进 数据 质量 。 除 此 之 
外 ， 近 些 年 来 还 呈现 出 了 面向 时 间 记录 的 实体 识别 [25-29] ， 改 善 具有 时 间 演 化 特性 的 同一 实体 的 识别 准确 性 ; 基于 众 包 的 实体 识别 BO- 
31] ， 通 过 混合 人 机 来 提升 实体 识别 的 准确 性 。 同 时 ， 隐 私 保护 下 的 实体 识别 B2，33] 也 成 为 了 关注 热点 ， 以 支持 隐私 数据 的 实体 识别 。 


根据 识别 对 象 的 数据 源 的 种 类 划分 ， 已 有 的 实体 识别 工作 主要 包括 : 在 关系 数据 库 、Deep Web 数 据 库 上 的 实体 (记录) 识别 B4] ; 
Web 上 的 实体 识别 [35-36] ; 语义 Web (RDF 数 据 ) 上 的 实体 识别 B7-38] ;数据 仓库 中 的 实体 识别 29-40] ; 非 结构 化 文档 中 的 实体 识 
别 [41] ;复杂 数据 如 XML 数 据 、 图 数据 、 复 杂 网 络 上 的 实体 识别 【42] ; 社会 网 络 中 的 实体 识别 [43-44] 。 


由 于 实体 识别 一 直 被 各 个 领域 从 不 同 的 方面 研究 ， 包 括 统计 学 领域 、 信 息 检索 领域 、 人 工 智能 领域 、 机 器 学 习 领 域 、 数 据 库 领域 和 工业 
界 等 ， 各 种 方法 尤其 是 结构 化 数据 上 的 识别 方法 相继 被 提出 。 在 统计 学 和 人 工 智能 领域 ， 已 有 的 研究 主要 是 把 它 看 成 一 种 分 类 问题 ， 主 要 是 
基于 统计 和 机 器 学 习 的 方法 (监督 的 方法 和 非 监督 的 方法 ) 。 而 在 数据 库 领域 ， 已 有 的 方法 通常 是 使 用 基于 规则 的 方法 。 在 不 同 的 文献 和 研 
究 领域 中 实体 识别 的 英文 名 称 有 好 多 种 ， 如 entity resolution, entity matching, fuzzy matching, fuzzy join, fuzzy duplicate 
elimination, approximate join, approximate string join, approximate matching, record linkage, merge/purge, identity 
uncertainty, duplicate identification, duplicate detection, record deduplication, coreference resolution, reference 
reconciliation, object identification 和 object matching 等 ， 相 应 地 中 文 名 称 也 有 很 多 ， 如 重复 探测 、 记 录 链 接 、 对 象 区 分 、 引 用 区 分 、 
引用 协调 、 对 象 统一 和 实体 统一 等 。 


1.3 ”实体 识别 间 题 的 描述 


随 着 实体 识别 研究 的 深入 ， 研 究 者 对 实体 识别 问题 具有 了 统一 认识 ， 即 实体 识别 是 识别 出 对 应 同一 真实 世界 实体 的 重复 数据 对 象 。 通 
常 ， 将 一 个 真实 世界 的 实体 记 作 X， 将 一 条 描述 实体 的 数据 对 象 记 作 r。 一 个 数据 对 象 通常 包含 多 个 属性 ， 比 如 说 ， 一 个 人 可 以 通过 姓名 、 生 
日 、 性 别 、 婚 姻 状 态 、 电 话 号 码 和 地 址 等 来 描述 。 在 “ 脏 ” 数 据 集中 ， 可 能 会 存在 多 个 数据 对 象 描述 同一 实体 ; 由 于 书写 方式 的 多 样 性 和 拼 
写 错误 ,描述 相同 实体 的 多 个 数据 对 象 不 一 定 字面 上 完全 相同 。 如 果 两 个 数据 对 象 描述 相同 的 实体 ， 那 么 这 两 个 数据 对 象 是 重复 的 或 元 余 的 
或 匹配 的 。 实 体 识别 问题 的 正式 定义 如 下 。 


定义 1.1 (实体 识别 ) ”给 定 一 个 脏 数 据 集 R={r} ， 实 体 识别 就 是 利用 一 个 数据 对 象 -实体 映射 函数 p (r) =X 来 确定 描述 同一 实体 的 所 有 数 
HE HR, IED R) ={itlp (r) =X}|r€ER，XEX}。 其 中 ，X 是 一 个 真实 世界 实体 的 集合 ， 该 集合 并 不 需要 是 已 知 的。 数据 对 象 -实体 映射 
Bake (1) =X 将 一 个 数据 对 象 t 映 射 到 它 所 描述 的 实体 Xx。 然而 ， 实 体 x 并 不 需要 是 已 知 的 ， 实 体 识别 只 需要 知道 哪些 数据 对 象 对 应 相同 的 实 
体 。 比 如 ，9 (4) =9 (12) ， 那 么 数据 对 象 tf 和 rs 描述 相同 的 真实 世界 实体 。 


例如 ， 如 表 1-1 所 示 ， 数 据 集 R={r1，r2，.…，r10}，X={e1，e2}， 则 中 (R) ={{r1, r2, r3, r4, r5}, 
{r6, r7, r8, r9, r10}}, ọ (r1) =ọ (r2) =ọ (r3) =ọ (r4) =ọ (r5) =e1, @ (r6) = 中 (r7) =ọ (r8) =ọ (r9) =ọ (r10) =e2。 


表 1-1 DBLP 中 文章 作者 信息 片段 
el Univ of Washington 2004 
el AT & T Labs-Research | Das Sarma, Halevy 2009 
el AT &- T Labs-Research 
( Chaudhuri, Ganti 2009 
e2 -10 Microsoft Research Ganti 2010 


需要 指出 的 是 ， 实 体 识别 不 同 于 自然 语言 处 理 中 的 命名 实体 识别 (Named Entity Recognition, NER) 和 实体 链接 (Entity 
Linking) 。 命 名 实体 识别 是 信息 抽取 的 一 个 子 任务 ， 是 指 判断 出 文本 中 命名 实体 属于 哪 一 类 (提前 定义 好 的 ) 命名 实体 ; 实体 链接 是 将 文本 
中 有 歧义 的 实体 指称 项 链接 到 给 定 的 知识 库 中 ， 从 而 实现 实体 歧义 的 消除 。 
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1.4 ”实体 识别 的 处 理 流程 


如 图 1-1 所 示 ， 实 体 识别 主要 包括 三 个 步骤 : 数据 分 块 、 数 据 对 象 相似 度 计算 和 数据 对 象 对 匹配 决定 。 


相似 度 计算 识别 结果 


图 1-1 实体 识别 流程 





首先 ， 数 据 分 块 也 称 为 数据 索引 ， 用 于 缩小 搜索 空间 ， 减 少 无 用 的 数据 对 象 比较 ， 提 升 识别 速度 。 典 型 的 数据 分 块 技术 有 基于 键 值 的 分 


块 方法 、 基 于 滑动 窗口 的 分 块 方法 、 基 于 聚 类 的 分 块 方法 、 基 于 值 的 分 块 方法 等 。 数 据 分 块 是 一 个 可 选 步骤 。 


其 次 ， 实 体 识别 的 一 个 重要 环节 是 计算 数据 对 象 之 间 的 相似 度 ， 如 果 一 个 数据 对 象 对 的 相似 度 越 大 ， 该 数据 对 象 对 匹配 的 可 能 性 越 大 ; 
相似 度 计算 要 用 到 相似 度 计算 冰 数 ， 具 体 见 第 2 章 。 


最 后 ， 当 获得 了 数据 对 象 相似 度 之 后 ， 需 要 利用 数据 对 象 相似 度 来 决定 数据 对 象 之 间 是 否 匹 配 (重复 ) ， 当 前 已 有 多 种 匹配 决定 的 方 
法 ， 典 型 的 有 基于 阔 值 的 决定 方法 、 基 于 分 类 的 决定 方法 和 基于 聚 类 的 决定 方法 。 


1.5 实体 识别 的 挑战 


在 单个 数据 源 或 多 个 数据 源 中 ， 将 描述 相同 实体 的 不 同 数据 对 象 识别 出 来 存在 一 些 挑战 。 接 下 来 将 介绍 这 些 挑战 。 


1.5.1 ”相似 度 衡量 问题 


通常 来 说 ， 待 匹配 的 数据 集 之 间 不 存在 统一 标识 符 〈 即 ID) ， 比 如 身份 证 号 、 社 保 号 、 商 品 唯一 编号 等 。 如 果 存在 这 样 的 统一 标识 符 ， 
那么 实体 识别 将 变 成 数据 库 连 接 操作 。 然 而 ， 现 实 世界 的 数据 集中 很 少 包含 统一 标识 符 ， 因 此 ， 为 了 进行 实体 识别 ， 需 要 衡量 数据 对 象 的 相 
似 性 。 实 体 识别 中 的 数据 集 通 常 都 不 是 高 质量 的 ， 它 们 可 能 包含 错误 属性 、 相 同属 性 的 不 同 表示 形式 、 随 着 时 间 改变 的 属性 (如 年 龄 、 联 系 
电话 ) 等 。 鉴 于 上 述 原 因 ， 实 体 识别 中 比较 数据 对 象 的 属性 时 ， 不 能 采用 精确 的 相似 度 比较 函数 ( 即 返 回 布尔 型 结果 ) ， 而 需要 采用 能 衡量 
出 属性 值 有 多 相似 的 相似 度 函 数 (返回 介 于 0 和 1 之 间 的 数值 ， 越 接近 于 1 代表 越 相似 ， 反 之 则 越 不 相似 ) 。 针 对 不 同类 型 的 属性 ， 相 似 度 衡 
量 的 方法 应 该 不 同 。 比 如 姓名 经 常 存在 不 同 的 书写 格式 和 不 同 的 缩写 形式 ， 文 章 的 标题 通常 是 一 个 较 长 的 字符 串 ， 年 份 、 价 格 等 数值 型 属性 
的 相似 度 衡量 不 同 于 字符 串 等 9] 。 本 书 第 2 章 将 介绍 不 同 的 相似 度 函 数 ， 可 用 于 不 同 的 属性 比较 ， 从 而 解决 不 同 的 实体 识别 任务 。 








1.5.2 ”计算 效率 问题 


给 定 两 个 数据 集 ， 其 数据 规模 分 别 为 mn 和 mn， 那么 实体 识别 的 比较 次 数 为 nx n。 对 于 单数 据 源 的 情况 ， 给 定 一 个 数据 规模 为 | 的 数据 集 ， 
那么 需要 进行 | (|-1) /2 次 的 比较 。 通 过 上 述 分 析 可 以 发 现 ， 这 种 方式 的 实体 识别 随 着 数据 规模 的 增长 ， 其 计算 开销 以 平方 级 的 方式 增长 。 当 
数据 量 比较 大 的 时 候 ， 这 样 大 的 开销 是 无 法 接受 的 。 为 此 ， 应 该 快速 、 有 效 地 去 除 掉 不 可 能 匹配 的 数据 对 象 对 ， 只 保留 那些 有 可 能 匹配 的 数 
据 对 象 对 。 实 体 识别 中 分 块 技术 的 作用 就 是 降低 计算 开销 ， 通 过 分 块 技术 只 将 可 能 匹配 的 数据 对 象 分 到 相同 的 块 中 。 本 书 第 3 章 将 介绍 分 块 
技术 。 


1.5.3 ”机 器 学 习 方 法 的 应 用 问题 


通过 机 器 学 习 方 法 可 以 训练 出 实体 识别 模型 的 参数 值 和 匹配 规则 ， 以 避免 人 工 确定 字段 权重 和 匹配 阔 值 。 基 于 机 器 学 习 的 实体 识别 方 
法 (4994) 主要 可 分 为 两 类 : 基于 分 类 器 的 实体 识别 方法 和 基于 概率 图 模型 的 实体 识别 方法 。 基 于 分 类 器 的 实体 识别 方法 将 实体 识别 看 作 一 
个 分 类 问题 ， 即 给 定 两 个 数据 对 象 ， 判 断 两 者 是 否 匹配 。 一 般 情况 下 ， 这 些 待 匹配 的 数据 对 象 被 看 作 独 立 目 均匀 分 布 的 。 常 见 的 分 类 方法 有 
决策 树 、 贝 叶 斯 分 类 器 、 支 持 向 量 机 、 主 动 学 习 、 误 差 逆 传播 、 遗 传 编程 等 。 与 基于 分 类 器 的 实体 识别 方法 不 同 ， 基 于 概率 图 模型 的 实体 识 
别 方法 认为 对 象 之 间 并 非 孤立 ， 而 是 存在 某 种 内 在 联系 ， 利 用 这 种 内 在 联系 可 以 避免 对 实体 的 孤立 式 匹 配 决策 。 这 类 方法 将 实体 之 间 的 内 在 
联系 表达 为 概率 图 模型 ， 通 过 推理 和 学 习 来 实现 联合 式 实体 识别 ， 具 体 包 括 基于 马尔 可 夫 逻 辑 网 络 的 实体 识别 和 基于 条 件 随机 场 的 实体 识 
别 。 为 了 达到 较 好 的 效果 ， 需 要 选择 和 建立 合适 的 机 器 学 习 模型 。 本 书 第 4 章 将 介绍 基于 机 器 学 习 的 实体 识别 方法 。 


1.54 ”关联 对 象 的 识别 问题 


现实 世界 中 存在 很 多 关联 的 数据 ， 分 为 多 类 型 关联 数据 和 单 类 型 关联 数据 。 多 类 型 关联 数据 包含 多 种 类 型 的 数据 对 象 ， 彼 此 之 间 存 在 一 
定 的 关联 关系 ， 比 如 引文 数据 集中 包括 文章 、 作 者 、 会 议 等 ， 电 影 数据 集中 包括 电影 、 导 演 、 演 员 、 出 品 公司 等 。 由 于 不 同 数据 对 象 之 间 存 
在 依赖 关系 ， 当 识别 出 一 些 数据 对 象 后 ， 与 这 些 数据 对 象 关 联 的 其 他 数据 对 象 的 相似 性 会 变 大 ， 从 而 实现 了 相似 性 传播 P?，?6]。 可 见 ,， 利 
用 这 种 不 同类 型 的 数据 对 象 之 间 的 关联 关系 ， 可 以 实现 更 准确 的 实体 识别 。 单 类 型 的 关联 数据 只 包含 一 种 相互 关联 的 数据 对 象 ， 比 如 社交 网 
络 和 学 术 合作 网 络 等 。 另 外 ， 实 体 识别 中 的 特殊 情况 是 不 同 实体 同名 ( 称 为 实体 消 岐 或 名 字 消 歧 ) ， 比 如 DBLP 数 据 库 中 有 超过 50 个 名 叫 Wei 
Wang 的 作者  ] 。 在 单 类 型 的 关联 数据 中 ， 描 述 不 同 实 体 的 数据 对 象 与 其 他 数据 对 象 的 关联 强度 不 同 ， 这 些 特性 有 助 于 解决 实体 消 歧 的 问 
题 。 本 书 第 5 章 将 介绍 基于 关系 的 实体 识别 。 





1.5.5 “一些 新 的 挑战 


一 些 待 识别 的 数据 集 的 数据 对 象 包含 了 时 间 戳 或 一 些 与 时 间 相 关 的 属性 ， 这 些 属 性 描述 了 某 个 特定 时 间 上 实体 的 特征 。 比 如 ，DBLP 数 据 
库 有 作者 的 相关 信息 : 作者 姓名 、 工 作 单位 、 合 作者 和 年 份 ， 作 者 姓名 、 工 作 单位 和 合作 者 等 属性 都 可 能 随 着 时 间 推 移 而 发 生 演化 ， 例 如 ， 
姓名 变化 如 Xin Luna Dong 一 Luna Dong; 工作 单位 变更 如 University of Washingtion 一 Google， 合 作者 变化 如 
Halevy，Yu 一 Naumamn。 上 例 中 ， 同 一 属性 在 不 同时 间 可 能 取 不 同 的 值 ， 也 就 是 说 单纯 的 属性 相似 度 无 法 准确 反映 数据 对 象 的 相似 性 。 在 


识别 这 类 数据 时 ， 需 要 考虑 属性 的 演化 特性 [28，23] 。 如 何 利用 时 序 信息 和 属性 的 演化 信息 来 帮助 实体 识别 是 一 个 有 意义 的 研究 问题 。 








一 些 实体 识别 任务 的 难度 非常 大 ， 单 靠 计算 机 的 算法 本 身 无 法 解决 ， 比 如 涉及 图 片 的 实体 识别 。 近 年 来 ， 众 包 (Crowdsource) 逐渐 受 
到 工业 界 和 学 术 界 的 重视 。 众 包 就 是 借助 互联 网 上 大 众 的 智力 来 解决 一 些 计算 机 不 能 独立 完成 的 任务 。 就 实体 识别 而 言 ， 人 通常 可 以 比 计算 
机 更 准确 地 判断 两 个 数据 对 象 是 否 描述 相同 的 实体 。 如 何 利用 众 包 来 帮助 计算 机 进行 实体 识别 是 一 个 新 的 研究 问题 B0, 31] 。 

实体 识别 在 金融 、 医 疗 、 政 府 等 领域 具有 广泛 的 应 用 。 但 是 ， 当 数据 对 象 涉及 个 人 隐私 或 敏感 信息 时 ， 必 须要 考虑 数据 对 象 的 隐私 保护 
问题 。 例 如 ， 在 分 散 的 医疗 体系 中 ， 某 人 的 医疗 信息 可 能 分 布 在 多 个 医院 ， 找 出 同一 个 人 在 不 同 医院 的 诊断 信息 有 利于 更 准确 地 分 析 病情 ， 
但 由 于 涉及 患者 隐私 ， 各 医院 并 不 希望 暴露 患者 的 医疗 信息 。 在 这 种 情况 下 ， 实 体 识别 方法 应 当 既 找 出 某 位 患者 在 各 医院 的 医疗 信息 ， 又 保 
证 各 医院 其 他 患者 的 医疗 信息 不 被 泄露 2，33] 。 如 何在 隐私 保护 的 前 提 下 进行 实体 识别 也 是 一 个 重要 的 研究 问题 。 


本 书 第 6 章 将 介绍 基于 众 包 的 实体 识别 、 基 于 时 间 模 型 的 实体 识别 和 隐私 保护 下 的 实体 识别 。 


1.5.6 实体 识别 评估 


如 何 合理 地 评估 识别 结果 的 精确 性 和 实体 识别 效率 对 于 实体 识别 研究 非常 关键 。 同 时 ， 要 评估 实体 识别 方法 ， 需 要 已 知 真实 结果 的 数据 


集 ， 如 何 获 取 有 公信 力 的 数据 集 也 是 实体 识别 评估 的 一 个 重要 方面 。 本 书 第 7 章 将 介绍 实体 识别 评估 。 


1.6 实体 识别 的 应 用 


实体 识别 有 着 广泛 的 应 用 ， 如 医疗 卫生 、 人 口 普 查 、 客 户 关系 管理 、 网 购 比价 、 商 业 欺 诈 侦 查 、 关 联 的 开放 数据 和 引文 数据 库 等 。 实 体 
识别 对 于 大 型 的 信息 系统 、 政 府 部 门 、 公 共 部 门 、 商 业 组 织 和 研究 机 构 等 都 有 着 重要 作用 。 


1.6.1 ”医疗 卫生 


医疗 卫生 是 实体 识别 最 早 的 应 用 领域 之 一 ， 已 经 有 几 十 年 的 应 用 历史 ， 它 也 是 推动 实体 识别 研究 的 重要 领域 。 一 个 人 的 一 生 当 中 会 产生 
大 量 的 医疗 记录 ， 这 些 医疗 记录 可 能 来 自 医 生 、 医 院 、 体 检 中 心 和 医疗 保险 公司 等 。 如 果 能 将 这 些 医 疗 记 录 匹 配 起 来 ， 就 形成 了 一 张 医疗 图 
谱 。 如 果 能 将 很 多 人 的 医疗 图 谱 构建 出 来 ， 对 于 医药 研究 的 意义 非凡 。 匹 配 的 医疗 数据 可 以 用 于 新 的 医疗 研究 ， 减 少 新 的 数据 获取 的 开销 。 
比如 ， 可 以 用 于 调查 特定 病人 群体 中 的 药物 副作用 反应 。 








英国 的 牛津 记录 链接 研究 开始 于 20 世 纪 60 年 代 ， 该 项 目 致力 于 研发 基于 计算 机 的 记录 链接 技术 ， 并 将 该 技术 应 用 于 大 约 350000 人 的 出 
生 、 死 亡 和 医疗 数据 。 这 样 就 可 以 研究 特定 的 疾病 之 间 的 关联 关系 ,利用 纵向 的 匹配 数据 可 以 分 析 不 同 职业 的 死亡 率 、 移 民情 况 和 相关 的 社 
会 经 济 学 的 因素 。 从 20 世 纪 90 年 代 中 期 开始 ， 澳 大 利 亚 进行 了 一 个 比较 成 功 的 医疗 数据 匹配 项 目 。 该 项 目 将 来 自 不 同 数 据 源 的 医疗 记录 以 及 
一 些 非 医 疗 记录 匹配 起 来 ， 为 每 个 个 体形 成 了 一 系列 的 匹配 记录 。 从 1995 年 到 2003 年 ， 这 个 项 目 共 输出 700 多 项 成 果 ， 其 中 包括 一 些 卓越 的 
成 果 : 医疗 政策 的 改革 和 诊所 条 例 的 更 改 。 一 些 其 他 国家 也 实施 了 类 似 的 医疗 数据 匹配 项 目 。 然 而 ， 医 疗 数据 涉及 病人 的 隐私 信息 ， 因 此 在 
进行 实体 识别 时 需要 考虑 隐私 保护 问题 。 


16.2 人口 普查 


人 口 普查 是 世界 各 国 的 一 项 基本 公共 事务 。 人 口 普查 的 数据 涉及 人 口 、 文 化 、 经 济 和 环境 等 方面 的 信息 。 这 些 信息 可 以 生成 各 种 各 样 的 
统计 报告 ， 这 些 报告 可 以 帮助 政府 和 商业 组 织 规划 资金 和 资源 的 配置 。 实 体 识别 技术 是 人 口 数据 统计 的 一 个 重要 工具 。 实 体 识别 有 助 于 复 用 
已 有 数据 集 来 编辑 新 的 人 口 数据 ， 从 而 减少 管理 大 型 人 口 数据 集 的 开销 。 同 时 ， 在 实体 识别 过 程 中 ， 可 以 发 现 和 纠正 信息 冲突 和 弥补 信息 缺 
失 等 ， 有 助 于 提高 数据 质量 和 完整 性 。 利 用 实体 识别 可 以 将 不 同年 份 获得 的 人 口 普查 数据 集 匹 配 起 来 ， 从 而 生成 纵向 数据 集 ， 为 公共 及 政府 
部 门 提 供 刻 画 人 口 的 各 种 特征 及 其 随时 间 的 变化 情况 。 在 不 同 的 国家 ， 有 不 同 的 法 律 和 法 规 规定 什么 样 的 数据 可 以 进行 实体 识别 。 比 如 在 澳 
大 利 亚 ， 人 口 普查 数据 中 的 姓名 和 地 址 信息 必须 在 收集 后 的 一 年 内 销毁 。 诸 如 此 类 的 限制 为 构建 纵向 的 数据 带 来 了 巨大 的 挑战 ， 因 为 实体 识 
别 通常 要 依赖 姓名 、 年 龄 、 性 别 、 宗 教 、 职 业 、 住 址 和 工作 单位 等 。 美 国人 口 普查 局 是 最 早 采 用 实体 识别 技术 的 组 织 之 一 ， 同 时 该 组 织 在 较 
长 的 时 期 内 都 在 实体 识别 研究 中 处 于 领先 地 位 。 美 国人 口 普查 局 要 处 理 的 数据 量 在 亿 级 ， 因 此 该 组 织 很 早 就 提出 针对 大 规模 数据 的 分 布 式 实 
体 识别 技术 。 


1.6.3 “客户 关系 管理 


大 型 商业 组 织 通常 会 以 不 同 的 形式 收集 客户 的 相关 信息 。 大 型 商业 组 织 通 常 可 能 有 不 同 的 分 支 机 构 ， 如 网 上 商店 、 在 不 同城 市 的 实体 
店 、 售 后 服务 机 构 、VIP 专 项 服务 部 门 和 广告 推送 部 门 等 。 每 个 分 支 机 构 都 可 能 与 客户 产生 联系 ， 生 成 一 些 客户 信息 记录 ， 并 存储 在 各 自 的 
本 地 数据 库 中 。 这 样 一 来 ， 某 位 客户 的 信息 可 能 会 保存 在 该 商业 组 织 的 不 同 分 支 机 构 的 数据 库 中 ， 导 致 不 同 分 支 机 构 的 数据 库 中 可 能 包含 重 
复 的 客户 记录 。 商 业 组 织 通常 采 用 客户 关系 管理 系统 来 管理 海量 客户 的 诸多 信息 。 当 客户 关系 管理 系统 收集 客户 的 全 部 信息 时 ， 需 要 识别 出 
描述 相同 客户 的 所 有 客户 记录 ， 以 精准 推送 产品 和 服务 广告 ， 同 时 也 避免 因 存 在 重复 的 客户 记录 而 导致 的 资源 浪费 现象 。 





客户 数据 的 实体 识别 面临 以 下 挑战 。 


1) 当 人 们 换 了 住址 后 ， 他 们 的 地 址 发 生 了 变化 ， 当 人 们 结婚 或 离婚 后 (欧美 国家 ) ， 他 们 的 姓氏 会 发 生变 化 。 这 些 情况 会 导致 商业 数 
据 库 中 出 现 重复 地 描述 相同 客户 的 记录 。 


2) 大 多 数 的 客户 并 不 关心 商业 数据 库 中 是 否 存 在 多 条 描述 他 们 的 重复 记录 ， 他 们 只 关心 自己 购买 的 产品 或 服务 是 否 到 货 。 即 便 收 到 多 
份 来 自 相 同 商业 组 织 的 推送 广告 ， 他 们 也 很 少 会 主动 报告 。 


3) 当 多 个 商业 组 织 要 进行 合作 时 ， 比 如 要 进行 联合 商业 推广 ， 需 要 将 各 种 商业 组 织 数据 库 中 的 客户 记录 集成 在 一 起 ， 构 建 一 个 统一 的 
客户 信息 数据 库 ， 在 此 过 程 中 需要 利用 实体 识别 技术 将 重复 的 客户 记录 找 出 来 。 一 般 来 说 ， 在 不 同 商业 组 织 的 数据 库 中 ， 客 户 记录 的 格式 是 
不 同 的 ， 可 能 存储 了 不 同类 型 的 信息 ， 客 户 记 录 生 成 的 时 间 也 可 能 不 同 ， 这 些 情 况 都 给 客户 记录 的 识别 造成 了 极 大 的 困难 。 


1.6.4 ”网 购 比 价 


随 着 互联 网 技术 和 电子 商务 的 发 展 ， 越 来 越 多 的 人 习惯 于 从 电 商 网 站 购买 商品 和 服务 。 电 子 商 务 的 繁荣 催生 了 一 个 新 的 服务 一 一 网 购 比 
价 。 网 购 比价 网 站 支持 用 户 查询 特定 的 商品 或 根据 分 类 、 价 格 或 品牌 来 浏览 商品 。 网 购 比价 服务 中 面临 的 一 个 重大 挑战 是 ， 如 何 确定 来 自 不 
同 电 商 网 站 的 商品 条 目 描 述 的 是 相同 的 商品 。 某 些 特 定 类 型 的 商品 有 唯一 标识 符 ， 比 如 图 书 有 ISBN 码 、 电 子 产品 有 EPC 码 。 然 而 ， 大 多 数 的 
商品 (如 衣服 、 家 电 、 日 用 品 等 ) 并 不 存在 唯一 标识 符 ， 因 此 ， 这 些 商品 在 不 同 的 电 商 网 站 的 产品 描述 信息 大 不 相同 。 如 表 1-2 所 示 ， 四 个 
来 自 不 同 电 商 网 站 的 商品 条 目 摘 述 了 相同 的 商品 ， 然 而 ， 不 仪 它们 的 商品 描述 差异 明显 ， 而 且 它 们 的 商品 代码 也 十 分 不 同 。 为 了 保证 提供 精 
确 而 全 面 的 商品 比价 服务 ， 比 价 网 站 必须 准确 找 出 所 有 描述 相同 商品 的 商品 条 目 。 相 对 于 其 他 的 实体 识别 应 用 ， 如 人 的 姓名 和 地 址 等 ， 商 品 
条 目的 商品 描述 差异 更 大 ， 因 此 需要 及 用 完全 不 同 的 相似 度 计 算 函 数 。 例 如 ， 表 1-2 中 四 个 商品 条 目 中 商品 描述 的 字符 串 相似 性 是 比较 明显 
的 。 然 而 ， 这 个 相机 的 商品 名 称 与 它 的 上 一 代 (Canon PowerShot G10) 的 商品 名 称 只 差 一 位 数字 ， 即 0 和 1。 





表 1-2 来 自 不 同 电 商 网 站 描述 相同 商品 的 四 个 商品 条 目 











商品 描述 商品 代码 
Canon PowerShot G11 10 MP Compact Camera-6. 10mm-30. 50mm Item # 927909 
Canon-PowerShot G-11 10. 0 Mega pixel Item # CANPSGI11 
PowerShot G11 Point & Shoot Digital Camera Canon 3632B001 
Canon PowerShot G11 10 Megapixel Compact Camera MFG #: 3632B001 


1.6.5 ”犯罪 及 欺诈 侦查 


实体 识别 技术 是 犯罪 侦查 信息 系统 的 重要 组 成 部 分 。 利 用 复杂 的 信息 系统 ， 和 警察 部 门 可 以 准确 地 确定 嫌疑 犯 的 身份 。 犯 罪 侦查 领域 中 的 
实体 识别 不 同 于 其 他 领域 的 实体 识别 ， 它 面临 的 一 个 重大 挑战 是 ， 犯 罪 嫌 疑 人 会 蓄意 修改 个 人 信息 ， 从 而 避免 被 识别 出 来 。 如 当面 对 执法 人 
员 的 询问 时 ， 罪 犯 通 常会 提供 自 改 过 的 或 虚构 的 个 人 信息 ， 如 地 址 、 出 生日 期 、 虚 构 的 社保 号 或 和 驾驶 证 号 码 等 。 犯 罪 嫌 疑 人 的 蓄意 修改 使 得 
修改 后 的 个 人 信息 与 真实 的 个 人 信息 ( 极 有 可 能 是 另外 一 个 人 ) 看 起 来 十 分 相像 ， 从 而 误导 执法 部 门 的 侦查 。 实 体 识别 技术 可 以 帮助 侦察 人 
员 确定 虚假 的 个 人 信息 是 否 对 应 一 个 真实 的 人 。 通 过 对 比 已 有 的 罪犯 数据 库 和 待 确定 的 个 人 信息 记录 ， 侦 察 人 员 可 以 确定 当前 嫌疑 犯 的 真实 
身份 。 通 常 来 说 ， 在 这 种 应 用 中 ， 对 实体 识别 的 执行 效率 有 较 高 的 要 求 ， 因 为 嫌疑 犯 的 身份 需要 尽快 确定 。 


随 着 商业 模式 的 多 样 化 和 互联 网 商业 的 发 展 ， 身 份 欺 诈 造 成 的 财产 损失 越 来 越 多 。 实 体 识别 技术 可 以 帮助 身份 验证 ， 减 少 身份 舱 诈 。 身 
份 欺诈 的 数量 在 各 个 国家 都 在 不 断 增长 ， 给 金融 组 织带 来 了 数 以 亿 级 的 财产 损失 ， 同 时 带 来 了 恶劣 的 社会 影响 。 身 份 欺 诈 是 指 行 骗 者 通过 虚 
假 的 身份 获取 了 服务 和 收益 的 权限 。 随 着 电子 财务 交易 和 在 线 公共 和 政府 服务 的 广泛 应 用 ， 这 些 服务 和 交易 的 参与 者 的 身份 验证 变 得 非常 重 
要 。 通 过 对 美国 的 3 亿 银行 账号 进行 统计 发 现 ，90% 的 欺诈 账号 是 通过 虚构 的 身份 开通 的 ，75% 的 银行 财产 损失 是 由 虚构 身份 的 欺诈 造成 
的 。 实 体 识别 是 身份 验证 系统 的 关键 组 成 部 分 。 具 体 来 说 ， 就 是 将 待 验证 的 身份 信息 与 各 种 包含 已 验证 的 、 准 确 的 个 人 记录 进行 比较 ， 判 断 
是 否 真实 人 存在 此 人 或 是 否 是 某 个 人 。 已 验证 的 数据 库 包括 选择 投票 注册 数据 库 、 驾 照 数据 库 、 社 保 数 据 库 、 电 话 登记 数据 库 等 。 通 过 与 这 些 
已 验证 的 数据 库 进 行 匹配 ， 就 可 以 得 到 全 面 真实 的 个 人 信息 ， 从 而 评估 当前 的 身份 信息 是 否 为 真 。 


1.6.6 关联 的 开放 数据 


随 着 互联 网 的 发 展 ，Web 上 的 数据 越 来 越 多 ， 然 而 这 些 数据 并 没有 有 效 地 集成 ， 也 无 法 准确 地 查询 。 语 义 网 (Semantic Web) 的 研究 
者 提出 了 关联 的 开放 数据 (Linked Open Data, LOD) 的 概念 。LOD 的 基本 思路 是 : 赋予 每 个 数据 对 象 一 个 URI， 用 HTTP 协 议 将 数据 对 象 
关联 起 来 (通常 是 RDF 三 元 组 的 形式 ) ， 最 后 将 这 些 数据 公开 发 布 在 Web 上 。LOD 的 目标 是 将 来 自 各 个 数据 源 的 Web 数 据 集成 起 来 ， 以 便于 
用 户 快速 查询 和 浏览 。 越 来 越 多 的 数据 源 ， 如 DBpedia、Freebase 等 加 入 到 LOD 项 目 中 ， 使 得 用 户 可 以 方便 地 访问 海量 的 信息 。 截 至 2014 
年 8 月 ， 基 于 关联 开放 数据 项 目 组 织 (LOD) 发 布 的 数据 云图 统计 ， 已 有 约 570 个 数据 集 ， 这 些 数 据 集 之 间 通 过 2909 个 RDF 链 接 。 这 些 RDF 链 
接 中 ， 有 很 大 比例 是 链接 两 个 匹配 的 数据 对 象 ， 比 如 ，Freebase 中 描述 美国 银行 的 数据 对 象 与 维基 百科 中 描述 美国 银行 的 数据 对 象 之 间 存 在 
一 个 链接 。LOD 项 目 中 的 数据 源 涉及 各 个 领域 ,包括 公共 服务 领域 、 商 业 领域 和 科研 领域 等 。 这 些 数 据 源 间 经 常会 存在 一 定 的 交 硬 ， 这 使 得 
实体 识别 在 LOD 项 目 中 不 可 或 缺 。 最 初 的 链接 操作 是 人 工 进行 的 ， 今 后 将 逐步 地 发 展 基于 机 器 的 链接 操作 。 由 于 待 链接 的 数据 集 常常 是 异 构 
的 ， 包 含 大 文本 属性 ， 因 此 需要 提出 新 的 、 特 定 的 相似 度 函 数 。 另 外 ， 由 于 数据 量 的 巨大 ， 实 体 识别 算法 的 效率 变 得 非常 关键 ， 需 要 提出 快 
速 的 实体 识别 算法 。 


1.6.7 引文 数据 库 


随 着 信息 技术 的 发 展 ， 科 研 成 果 的 发 表 逐 渐 电 子 化 ， 大 多 数 成 果 都 提供 了 在 线 数据 库 的 访问 服务 ， 比 如 Springer、Elsevier、ACM 
Digital Library 和 IEEE Xplore 等 。 这 些 在 线 服务 给 科研 人 员 带 来 了 巨大 的 方便 ， 使 得 科研 人 员 在 任何 联网 的 地 方 都 可 以 访问 到 海量 的 学 术 成 
果 。 这 样 的 在 线 数据 库 被 称 为 引文 数据 库 。 另 外 ， 一 些 在 线 机 构 (如 Thompson Web of Knowledge) 提供 文献 引用 和 影响 因子 分 析 等 服 
务 。 引 文 数据 库 不 仅 加 快 了 新 的 科研 成 果 的 传播 速度 ， 而 且 它 对 于 科研 资助 基金 的 分 配 有 着 重大 影响 一 一 越 来 越 多 的 科研 资助 基金 机 构 ( 包 
括 政 府 的 和 企业 的 等 ) 基于 权威 的 引文 数据 库 来 分 析 和 评价 科研 人 员 、 研 究 小 组 和 研究 机 构 的 学 术 成 果 和 学 术 影 响 力 。 这 样 的 学 术 评价 方式 
将 用 于 科研 资助 基金 的 分 配 以 及 科研 人 员 的 晋升 。 个 人 学 术 评 价 指标 ， 如 h-index， 根 据 科研 人 员 的 学 术 成 果 的 引用 情况 来 计算 出 一 个 数 
值 ， 以 此 来 评价 科研 人 员 的 学 术 影响 力 。 鉴 于 引文 数据 库 对 于 学 术 成 果 传 播 和 学 术 成 果 评 价 有 着 巨大 的 意义 ， 引 文 数据 库 中 的 数据 必须 是 高 
质量 的 ， 否 则 基于 这 些 数 据 生成 的 学 术 评价 指标 将 没有 公信 力 。 





引文 数据 是 不 断 增长 的 ， 构 建 和 维护 引文 数据 库存 在 诸多 挑战 。 一 些 大 型 的 引文 数据 库 包括 了 超过 25000000 条 文献 ， 维 护 起 来 十 分 困 
难 。 构 建 引文 数据 库 的 最 大 挑战 是 ， 数 据 库 中 很 多 作者 的 姓 是 一 样 的 ， 名 的 缩写 也 是 一 样 ， 甚 至 有 很 多 这 样 的 作者 在 同一 个 研究 领域 工作 。 
即便 提供 了 作者 姓名 的 全 称 ， 也 经 常 难以 判断 两 篇 文章 是 否 是 由 同一 作者 发 表 。 学 术 期 刊 和 学 术 会 议 中 的 名 字 通 常 是 缩写 形式 ， 而 不 是 标准 
的 全 称 ， 因 此 会 导致 同一 个 姓名 的 多 种 表达 形式 的 出 现 。 如 表 1-3 所 示 ， 三 条 引文 记录 描述 的 是 同一 篇 VLDB 1994 学 术 会 议 上 发 表 的 文章 ， 
然而 它们 的 字面 表达 有 明显 的 差别 。 





表 1-3 ”描述 同一 篇 学 术 论 文 的 三 条 引文 记录 


引文 记录 





R. Agrawal, R. Srikant. Fast algorithms for mining association rules in large databases. In 
VLDB-94, 1994. 


Rakesh Agrawal and Ramakrishnan Srikant. Fast Algorithms for Mining Association Rules. In 


Proc. of the 20th Intl Conference on Very Large Databases, Santiago, Chile. September 1994. 





Agrawal R. , Srikant R. Fast algorithms for mining association rules in large databases. In 
VLDB Conference, 1994. 


引文 数据 的 一 些 特征 使 得 它 成 为 数据 挖掘 的 热点 研究 对 象 。 引 文 数据 本 身 是 公开 发 表 的 信息 ， 因 此 在 进行 实体 识别 时 不 涉及 隐私 保护 的 
问题 。 引 文 数据 本 身 包括 了 多 种 类 型 的 数据 ， 如 文章 、 作 者 、 会 议 或 期 刊 和 作者 工作 单位 等 。 利 用 这 些 多 类 型 的 数据 对 象 ， 可 以 构建 出 一 个 


异 构 的 数据 对 象 网 络 。 在 这 个 网 络 中 ， 某 一 类 型 数据 对 象 的 匹配 可 以 促进 与 之 关联 的 其 他 数据 对 象 的 匹配 。 比 如 ， 两 个 作者 记录 的 姓 以 及 名 
的 缩写 相同 ， 如 果 两 者 在 同一 大 学 工作 ， 那 么 两 者 匹配 的 可 能 性 比 不 在 同一 大 学 工作 的 概率 大 。 这 样 多 类 型 同时 识别 称 为 联合 式 实体 识别 。 
1.7 本 章 小 结 


本 章 从 全 局 的 角度 介绍 了 实体 识别 技术 的 发 展 过 程 ， 给 出 了 实体 识别 的 间 题 描述 以 及 实体 识别 的 处 理 流程 ， 详 细 地 介绍 了 实体 识别 过 程 
中 涉及 的 挑战 问题 和 实体 识别 技术 在 各 个 领域 中 的 应 用 情况 。 
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第 2 草 ”相似 度 计 算 算法 


相似 度 计算 算法 是 实体 识别 中 的 核心 基础 算法 ， 本 章 介绍 基于 字段 (token) 的 相似 度 算法 (Jaccard 相 似 度 算法 、 基 于 TF-1DF 相 似 度 算 
法 、 基 于 q-grams 的 相似 度 算法 ) 、 基 于 编辑 距离 的 相似 度 算法 (Levenshtein 距 离 算 法 、Jaro 和 Jaro-Winkle 距 离 算 法 ) 、 混 合 的 相似 度 算 
法 (扩展 的 Jaccard 算 法 、Monge-Elkan 算 法 、Soft TF-IDF 算 法 ) 和 其 他 的 相似 度 算法 。 


2.1 ”基于 字段 的 相似 度 算 法 
2.1.1 _ Jaccard 相 似 度 算 ; 


Jaccard 相 似 度 |") 最 早 由 Paul Jaccard 提 出 ， 是 一 种 最 常见 的 评判 相似 程度 的 统计 指标 。Jaccard 相 似 度 作用 在 两 个 集合 上 ， 其 值 为 集 
合 交 与 并 的 比值 ， 见 公式 (2.1) 。 


_|AQBI 
Jaccard(A, B) AUB (2.1) 


其 中 ，A、B 表 示 两 个 集合 ，ANB 表 示 这 两 个 集合 的 交集 ，A UB 表示 两 个 集合 的 并 集 。 
应 用 Jaccard 算 法 ， 字 符 串 之 间 的 相似 度 可 表示 为 公式 (2.2) : 


| tokenize(S, ) 门 tokenize(S, ) | 


StringJaccard(S,,S,) = | tokenize(S;) U tokenize(S, ) | 





(2.2) 


其 中 ，S1、32 代 表 两 个 待 比较 的 字符 串 ， 函 数 tokenize (S) 可 以 将 字符 串 9 转 换 为 由 字段 (token) 组 成 的 集合 (9S1，S2，…，Sn}。 


下 面 举 个 例子 来 说 明 Jaccard 相 似 度 在 字符 串 上 的 应 用 。 假 设 存 在 两 个 字符 串 S1 和 92，S1= “Thomas Sean Connery” ，S2= “Sir 
Sean Connery”， 计 算 两 个 字符 串 的 相似 度 。 先 由 函数 tokenize 以 空格 作 分 隔 ， 得 到 : 


tokenize(S,)= { Thomas, Sean, Connery} 


tokenize(S,)= (Sir, Sean, Connery} 


然后 利用 公式 (2.2) 计算 得 到 字符 串 S1 和 S2 的 相似 度 : 


2 


StringJaccard(S;,S,) = 7 


Jaccard 相 似 度 多 用 于 检测 无 拼写 错误 字符 串 的 相似 度 ， 且 对 于 字符 串 内 各 token 顺 序 的 变化 是 不 敏感 的 。 


2.1 ”基于 字段 的 相似 度 算法 
2.1.1 ”Jaccard 相 似 度 算 } 


Jaccard 相 似 度 |") 最 早 由 Paul Jaccard 提 出 ， 是 一 种 最 常见 的 评判 相似 程度 的 统计 指标 。Jaccard 相 似 度 作用 在 两 个 集合 上 ， 其 值 为 集 
合 交 与 并 的 比值 ， 见 公式 (2.1) 。 


_|AQBl 
Jaccard(A, B) TAUB (2.1) 


其 中 ，A、B 表 示 两 个 集合 ，AnB 表 示 这 两 个 集合 的 交集 ，AU B 表 示 两 个 集合 的 并 集 。 


应 用 Jaccard 算 法 ， 字 符 串 之 间 的 相似 度 可 表示 为 公式 (2.2) : 


| tokenize(S, ) 门 tokenize(S, ) | 


StringJaccard(S; ,S2) = | tokenize(S,) U tokenize(S，) | 


(2.2) 





其 中 ，S1、S2 代 表 两 个 待 比较 的 字符 串 ， 函 数 tokenize (S) 可 以 将 字符 串 S 转 换 为 由 字段 (token) 组 成 的 集合 {S1，S2，.…，Sn}。 
下 面 举 个 例子 来 说 明 jJaccard 相 似 度 在 字符 串 上 的 应 用 。 假 设 存 在 两 个 字符 串 S1 和 S2，S1= “Thomas Sean Connery" , S2= “Sir 
Sean Connery”， 计 算 两 个 字符 串 的 相似 度 。 先 由 函数 tokenize 以 空格 作 分 隔 ， 得 到 : 


tokenize(S,)= { Thomas, Sean, Connery} 


tokenize(S,)= {Sir, Sean, Connery} 


然后 利用 公式 (2.2) 计算 得 到 字符 串 S1 和 S2 的 相似 度 : 
StringJaccard(S,,S,) = 1 
Jaccard 相 似 度 多 用 于 检测 无 拼写 错误 字符 串 的 相似 度 ， 且 对 于 字符 串 内 各 token 顺 序 的 变化 是 不 敏感 的 。 


2.1.2 ”基于 TF-IDF 的 相似 度 算法 


余弦 相似 度 计 算 2 是 基于 字段 的 一 种 相似 度 计算 方法 ， 其 计算 如 公式 (2.3) 所 示 : 


CosineSimilarity(V,W) = cos(a) = C208) 





其 中 ，V、W 是 两 个 n 维 向 量 ， 这 两 个 向 量 需要 由 TF-1DF 方 法 求 得 。 


TF-IDF (Term Frequency-lnverse Document Frequency) 是 一 种 统计 方法 ， 其 主要 思想 是 : 如 果 某 个 词 比较 少见 ， 但 是 它 在 这 篇 文 
章 中 多 次 出 现 ， 那 么 它 很 可 能 就 反映 了 这 篇 文章 的 特性 ， 则 认为 此 词 或 者 短语 具有 很 好 的 类 别 区 分 能 力 ， 适 合用 来 分 类 。TF (Term 
Frequency) 表示 某 个 词 在 文档 中 出 现 的 频率 ，IDF (Inverse Document Frequency) 与 包含 关键 词 t 的 文档 数 成 反比 ，IDF 越 大 ， 说 明 t 的 
类 别 区 分 能 力 越 好 。 


在 字符 型 属性 值 的 相似 度 计算 中 ， 将 属性 值 作为 文档 来 处 理 ， 并 用 向 量 表示 它们 。 设 两 个 字符 串 型 属性 值 向 量 形式 分 别 为 : 
V (al，a2，.…，an) , W (b1，b2，...，bm) ，TF-IDF 值 的 计算 步骤 如 下 。 


步骤 1: 应 用 统计 的 方法 得 出 每 个 关键 词 在 相应 的 属性 值 里 面 出 现 的 频率 ， 即 词 频 ， 记 为 
Tyo, + TE se, TE, TEva, » TEs TR, 


步骤 2: 由 公式 IDFt=log (|Dt//1+|D|) 计算 得 出 每 个 关键 词 的 IDF 值 ， 其 中 |D| 表 示 文档 总 数 ，|Dt| 表 示 包 含 关键 词 { 的 文档 数 ， 分 别 记 为 
IDFv, + IDFv,a, » IDFws, + IDFws, 


步骤 3: 将 向 量 中 各 个 关键 词 的 TF、1DF 值 分 别 相 乘 ， 得 到 各 个 关键 词 的 TF-IDF 值 ， 记 为 wDPw De 


ww > TFIDEw., 。 将 这 些 关键 值 组 成 新 的 向 量 ， 记 为 


TFIDF_VCTFIDFv。,TFIDFv。,…,TFIDFv 。) 
TFIDF_W(TFIDFy,,, ,TFIDFw, ，…,TFIDFw，) 


使 用 上 面 计算 得 出 的 向 量 以 及 余弦 算法 计算 出 相似 度 值 ， 记 为 sm (V, W). 


2.1.3 ”基于 q-grams 的 相似 度 算法 

在 基于 q-grams 的 字符 串 相 似 度 计算 中 ， 先 将 各 字符 串 切 割 成 长 度 为 q 的 grams， 然 后 再 进行 相似 度 计 算 。 下 面 举 例 说 明基 于 q-grams 
的 相似 度 计 算 过 程 。 

假设 有 两 个 字符 串 S1= “Henri Waternoose” 和 S2= “Henry Waternose” ， 两 个 字符 串 分 别 生成 3-grams 如 下 所 示 : 


3-grams of S,= {##H, #He, Hen, enr, nri, ri_, i_ W, Wa, Wat, ate, ter, ern, 
rno, noo, oos, ose, se# , e## } 


3-grams of S:= {##H, #He, Hen, enr, nry, ry_, yW, 





Wa, Wat, ate, ter, ern, 


rno, nos, ose, se# , e## } 


其 中 ，“ ”代表 空格 ，“# ”代表 填补 符号 。 


分 别 利用 2.1.1 节 和 2.1.2 节 中 提 到 的 Jaccard 和 Cosine 相 似 度 算法 计算 51 和 S2 的 相似 度 ， 其 中 V、W 分 别 代 表 S1、S2 的 3-grams 集 合 。 


StringJaccard(S, ,S,) = 13/22 = 0. 59 
CosineSimilarity (V ,W) 


_ 1. 04? X 13 
J1. 047 X13 +1.34 X5 X V1.0 X 13+ 1. 34? X4 





a 0. 64 


基于 q-grams 的 相似 度 计 算 更 适用 于 人 存在 拼写 错误 的 字符 串 间 的 比较 。 


2.2 ”基于 编辑 距离 的 相似 度 算 法 
2.2.1 Levenshtein 距 离 算 ; 


Levenshtein 距 离 算法 Dl 是 由 俄国 科学 家 Levenshtein 提 出 的 。 两 个 字符 串 str1 和 strz 的 编辑 距离 是 将 字符 串 str1 转 换 成 str? 所 使 用 的 最 
少 编辑 操作 次 数 。 编 辑 操作 有 三 种 : 


1) 插入 操作 : 在 字符 串 中 插入 一 个 字符 。 
2) 删除 操作 : 从 字符 串 中 删除 一 个 字符 。 
3) BREE: 将 字符 串 中 某 个 位 置 的 字符 昔 换 成 另外 一 个 字符 。 


每 一 个 编辑 操作 的 代价 都 是 由 1 来 指 代 Levenshtein 距 离 。 例 如 ，“best″” 和 “best” 的 编辑 距离 是 0， 而 “best” 和 “bent” 的 编辑 距 
离 是 1， 从 “best” 转 换 成 “pent” 需 要 一 个 编辑 操作 。 


例如 ，S1= “Sean” , S2= “shawn”。 从 S1 到 S2 有 很 多 种 变换 方式 ， 利 用 动态 规划 算法 可 以 得 到 最 小 的 编辑 距离 。 其 大 概 过 程 是 : 初 
始 化 一 个 |S1|+1) x (|S2l+1) 的 矩阵 M，Mi， 代 表 和 矩阵 M 中 第 i 行 第 j 列 的 值 。 其 中 ，0<i<|s1|，0<j<|sz|，S1， 球 示 字 符 串 S1 中 的 第 i 个 字 
符 。 如 公式 (2.4) 、 (2.5) 、 (2.6) 所 示 。 


AT ， = 1 (2. 4) 
(Mai, Si; = Sz, 


M;,; E l . 
1+ min(M; 1,;, M.; „Mim, j) 其 他 


(2. 6) 


则 动态 规划 过 程 如 图 2-1 所 示 。 





















































a) 初始 化 第 一 行 和 b) 利用 公式 (2.5) 计算 c ) 编辑 距离 存在 最 终 
第 一 列 后 的 矩阵 第 二 行 后 的 矩阵 矩阵 的 右 下 角 


图 2-1 动态 规划 计算 过 程 


最 终 LevDist (Sean, Shawn) =2。 


2.2 ”基于 编辑 距离 的 相似 度 算法 


2.2.1 Levenshtein FAA 


Levenshtein 距 离 算 法 [3] 是 由 俄国 科学 家 Levenshtein 提 出 的 。 两 个 字符 串 str1 和 strz 的 编辑 距离 是 将 字符 串 str1 转 换 成 str? 所 使 用 的 最 
少 编辑 操作 次 数 。 编 辑 操作 有 三 种 : 


1) 插入 操作 : 在 字符 串 中 插入 一 个 字符 。 
2) 删除 操作 : 从 字符 串 中 删除 一 个 字符 。 
3) 替换 操作 : 将 字符 串 中 某 个 位 置 的 字符 蔡 换 成 另外 一 个 字符 。 


每 一 个 编辑 操作 的 代价 都 是 由 1 来 指 代 Levenshtein 距 离 。 例 如，“best” 和 “best" 的 编辑 距离 是 0， 而 “best” #1 “bent” 的 编辑 距 
BEI, M "best" 转换 成 “bent” 需 要 一 个 编辑 操作 。 


例如 ，S1= “Sean” , S2= “shawn”。 从 S1 到 S2 有 很 多 种 变换 方式 ， 利 用 动态 规划 算法 可 以 得 到 最 小 的 编辑 距离 。 其 大 概 过 程 是 : 初 
始 化 一 个 |S1|+1) x (|szl|+1) 的 矩阵 M，Mi， 代 表 和 矩阵 M 中 第 i 行 第 j 列 的 值 。 其 中 ，0<i<|s1|，0<j<|sz|，S1， 球 示 字 符 串 S1 中 的 第 i 个 字 
符 。 如 公式 (2.4) 、 (2.5) 、 (2.6) 所 示 。 


M;.o -一 1 (2. 4) 
M),; = j CZ. 5) 
(Mi-1,j-1 Sı, = S2,j 


M;,; E 1 . 
1 二 min(M;1,; ,M1 „Mim, j) 其 他 


CZ.) 


则 动态 规划 过 程 如 图 2-1 所 示 。 





















































aja) | | | | 
a) 初始 化 第 一 行 和 b) 利用 公式 (2.5) 计算 。 ”。) 编辑 距离 存在 最 终 
第 一 列 后 的 矩阵 第 二 行 后 的 矩阵 矩阵 的 右 下 角 


图 2-1 动态 规划 计算 过 程 


最 终 LevDist (Sean, Shawn) =2。 


2.2.2 Jaro 和 Jaro-Winkler 距 离 算法 


Jaro 算 法 4 是 一 种 主要 用 于 比较 姓名 的 字符 串 比 较 算法 ， 对 于 字符 串 str1 和 strz， 这 个 算法 的 基本 计算 步骤 如 下 。 
1) 计算 字符 串 的 长 度 |str]| 和 |str?|。 


2) 寻找 两 个 字符 串 中 的 公共 字符 c: 公共 字符 指 的 是 满足 以 下 标准 的 所 有 str1 [i] 和 str2 [j] ， 其 中 str1 [i] =str2 D] ， 同 时 |i-j| 


<1/2min{lstr1|，|strz|}。 
3) 找到 变换 的 数量 t: 比较 str1 和 str2 的 第 i 个 公共 字符 ， 每 一 个 不 相 匹配 的 字符 就 是 一 个 变换 。 


Jaro 计 算 公 式 如 式 (2.7) 所 示 : 


Jaro(str, 5 = (+ 十 全 全) (2.7) 
3 C 


| str, | | strs | 


Winkler 和 Thibaudeau 修 正 了 Jaro 度 量 3] ， 并 给 出 了 一 个 前 缀 匹配 ， 因 为 前 缀 匹配 比 姓 名 匹配 更 加 重要 。Jaro-Winkler 定 义 了 一 个 前 
缀 p， 如 果 前 缀 部 分 有 长 度 为 上 的 部 分 相同 ， 则 Jaro-Winkler 距 离 计 算 公式 如 式 (2.8) 所 示 : 


dy = d; + lp (1 —d;) l (2. 8) 


其 中 : dj 是 两 个 字符 串 的 Jaro 距 离 ; 上 是 前 缀 相同 部 分 的 长 度 ， 但 是 规定 最 大 为 4;，p 是 调整 分 数 的 常数 ， 规 定 不 能 超过 0.25， 不 然 可 能 
出 现 dw 大 于 1 的 情况 ，Winkler 将 这 个 常数 定义 为 0.1。 


这 样 ， 字 符 串 “MARTHA” 和 “MARHTA” 的 Jaro-Winkler 距 离 为 : 


dy = 0.944+[3x0.1 x (1—0. 944) ] = 0. 961 


2.3 混合 的 相似 度 算 法 
2.3.1 扩展 的 Jaccard 相 似 度 算法 


本 小 节 介绍 两 种 扩展 的 Jaccard 方 法 ， 第 一 种 增添 了 相似 的 token [©] ， 第 二 种 引入 了 权重 函数 l. 


假设 有 两 个 字符 串 S1 和 9S2， 应 用 tokenize 函 数 将 两 个 字符 串 分 割 成 由 token 组 成 的 集合 ， 第 一 种 扩展 的 Jaccard 方 法 是 对 token 进 行 相似 
度 计算 ， 找 出 相似 的 token， 这 样 可 以 包容 较 小 的 拼写 错误 。 


通常 ，TokenSim (t4, t2) 作为 相似 度 计算 函数 来 计算 token 的 相似 度 ， 其 中 t1Etokenize (S1) ，t2Etokenize (So) 。 相 似 的 
token 定 义 如 下 : 


Shared(S,,S;) = {(¢;,t;)|t; € tokenize(S,;) A t; € 
tokenize(S; ) :TokenSim(t;,t;) >> Ostring } 


其 中 ， Qstring 为 判断 两 个 token 是 否 相似 的 闪 值 。 


唯一 存在 于 S1 中 的 token 为 : 


Unique(S,) = {t;|t; € tokenize(S,) A (t;,t;) @ Shared(S,,S,)} 


唯一 存在 于 S> 中 的 token 为 : 


Unique(S,) = {t; |t; € tokenize(S,) A (t;,t;) & Shared(S;,S,)} 


MY RALAMALacAtokens|A SRERMW, RSS PAGER. RARA ENERG ER, HAA 
(2.9) 所 示 : 


HybridJaccard 


Au, +t; ) €Shared(S; So wt; sf; ) 
Ae ot ) € Shared(S, +S, wt; st; y+ Ag, ) € Unique(S, wt; ) + Au, ) € Unique(S, j w(t; ) 





(2.9) 
下 面 举例 说 明 扩展 的 Jaccard 方 法 。 


假设 有 两 个 字符 串 S1= “Henri Waternoose” , So= “Henry Peter Waternose”。 利 用 编辑 距离 方法 度量 字符 串 间 的 相似 度 ， 且 
8string=1。 


Unique(S;) = Q, Unique(S,) = {Peter} 
Shared( S; ,S,)= {( Henri, Henry) , (Waternoose, Waternose) } 


LevDist(;. 4) 


我 们 假设 两 个 token (tj, tj) 的 权重 计算 公式 为 md. Ts.)， 集 合 函数 A 简单 地 将 权重 进行 加 和 运算 。 基 于 以 上 假设 ， 两 个 字符 串 的 扩 
展 Jaccard 相 似 度 计算 如 下 : 





0.6 0.9 


0.8+0.9+0717 e 


HybridJaccard(S,; ,S,) = 


2.3 混合 的 相似 度 算 法 
2.3.1 扩展 的 Jaccard 相 似 度 算法 


本 小 节 介绍 两 种 扩展 的 Jaccard 方 法 ， 第 一 种 增添 了 相似 的 token [©] ， 第 二 种 引入 了 权重 函数 [] 。 


假设 有 两 个 字符 串 S1 和 S2?， 应 用 tokenize 函 数 将 两 个 字符 串 分 割 成 由 token 组 成 的 集合 ， 第 一 种 扩展 的 Jaccard 方 法 是 对 token 进 行 相似 
度 计算 ， 找 出 相似 的 token， 这 样 可 以 包容 较 小 的 拼写 错误 。 


通常 ，TokenSim (t4, t2) 作为 相似 度 计 算 函 数 来 计算 token 的 相似 度 ， 其 中 t1Etokenize (S4) ，t2Etokenize (S2) 。 相 似 的 
token 定 义 如 下 : 


Shared(S,; ,S.) = {(t;st;) |t; € tokenize(S,) A t; € 
tokenize(S; ) :TokenSim(t;,t;) >> Osring } 


其 中 ， 6string 为 判断 两 个 token 是 否 相似 的 阔 值 。 


唯一 存在 于 S1 中 的 token 为 : 

Unique(S,) = {t; |t; € tokenize(S,) A (¢;,t;) € Shared(S,,S,)} 
唯一 存在 于 S2 中 的 token 为 : 

Unique(S,) = {t; |t; € tokenize(S,) A (i;,t;) E Shared(S,,S,)} 


第 二 种 扩展 为 匹配 和 未 匹配 的 token 引 入 了 权重 浮 数 w， 通 常 与 第 一 种 结合 起 来 使 用 。 集 合 钞 数 A 将 各 权重 集合 起 来 ， 其 计算 如 公式 
(2.9) 所 示 : 


HybridJaccard 


Aw, +t; ) €Shared(S, So wt; st; ) 


~ Ae rt; ) € Shared(S, Sy yw; st; y+ AG. )E Unique(S, wt; ) + Aa, ) € Unique(S, swt; ) 





(2. 9) 
下 面 举例 说 明 扩 展 的 Jaccard 方 法 。 


假设 有 两 个 字符 串 S1= “Henri Waternoose”，S2= “Henry Peter Waternose”。 利 用 编辑 距离 方法 度量 字符 串 间 的 相似 度 ， 且 


8string= 1。 


利用 上 述 公式 ， 得 到 
Unique(S;) = K, Unique(S,) = {Peter} 


Shared(S, ,S,)= { (Henri, Henry) , (Waternoose, Waternose) } 


Dist; 


我 们 假设 两 个 token (ti t) 的 权重 计算 公式 为 alal rD ， 集 合 函 数 A 简 单 地 将 权重 进行 加 和 运算 。 基 于 以 上 假设 ， 两 个 字符 串 的 扩 
展 Jaccard 相 似 度 计 算 如 下 : 





0.8 +0. 9 
HybridJaccard(S; ,S,) = 0.840.901 =O. 63 


2.3.2 ”Monge-Elkan 相 似 度 算法 


本 小 节 介 绍 Monge-Elkan 相 似 度 算法 [8] 。 首 先 假设 有 两 个 字符 串 S1 和 S2， 应 用 tokenize 函 数 将 两 个 字符 串 分 割 成 由 token 组 成 的 集 
合 ， 然 后 将 字符 串 S1 中 的 每 个 token ti 与 2 中 的 所 有 token 进 行 相 似 度 计算 ， 找 出 S2 中 与 t 相 似 度 最 大 的 tj。 然 后 将 5S1 中 所 有 token 的 相似 度 最 
大 值 相 加 。Monge-Elkan 相 似 度 计算 如 公式 (2.10) 所 示 : 


MongeElkanSim(S, ,S,) 


| tokenize(s] ) | | tokenize( s ) | 


l | 
= Oo max TokenSim(?¢;,¢;) (2.10) 
| tokenize(S, ) | >, j=] i 

下 面 举例 说 明 Monge-Elkan 相 似 度 计算 方法 。 假 设 有 两 个 字符 串 S1= “Henri Waternoose”，S2= “Henry Peter Waternose”。 在 


S2 中 与 “Henri” 最 相近 的 是 “Henry”， 与 “Waternoose” 最 相近 的 是 “Waternose”。 假 设 以 上 两 个 token 的 相似 度 最 大 值 分 别 为 0.8 和 和 
0.9， 则 计算 得 到 : 


_ 0.8+0.9 


7 一 0. 85 


MongeElkanSim(S; ,9，) 


2.3.3 Soft TF-IDF 相 似 度 算 法 


本 小 节 讨论 基于 TF-IDF 扩 展 的 余弦 相似 度 方法 ] 。 该 方法 的 基本 思想 与 扩展 的 Jaccard 方 法 相同 。 其 中 TokenSim (t4, t2) 应 用 辅助 
串 相似 度 计 算 函 数 来 计算 token 的 相似 度 ， 相 似 的 token 定 义 如 下 : 


Close (Ostring so ,9， ) 
= {t; |t; € tokenize(S,) A Jt; € tokenize(S,);TokenSim(¢; ,t;) >> Oring? 


与 扩展 的 Jaccard 中 Shared (S4, S2) 不 同 的 是 ，Close (Ostring, S1, S2) 只 包括 了 来 自 于 S1 中 的 token。 来 自 于 S2 中 的 与 Close 中 
$1 相似 的 token 定 义 如 下 : 


max Sim(ti,t;) = max TokenSim(t;,t;) 
人 = tokenize( S, ) 


其 中 ,tjetokenize (S2) ，tiEClose (Qstring, S1, S2) 。 


扩展 的 余弦 相似 度 计 算 方法 也 称 作 Soft TF-IDF， 定 义 如 公式 (2.11) 所 示 : 


SoftTFIDF(S; ,S;) = 





D ( tf — idf, © tf — idf 
t; EClose( S +Sp) | v| | wll 


+g 
string 


i X max Sim(t; st) 


(2.11) 


其 中 ，V，W 分 别 代表 S1、5S2 的 向 量 值 。 


下 面 举 个 例子 来 说 明 Soft TF-IDF 相 似 度 计算 方法 。 假 设 有 两 个 字符 串 S1= “Henri Waternoose” ，S2= “Henry Peter 
Waternose”， 代 表 S1、S2 的 向 量 值 VY、W 分 别 是 V={0.6，0.6,，0, 0, 0}, W={0, 0, 0.5, 0.3, 0.6}, 


可 以 确定 Close (Ostring, S1, S2) ={Henri，Waternoose}， 那 么 S1、S2 的 Soft TF-IDF 相 似 度 计算 如 下 : 


0. 6 0. 5 
9 9 x 2 2 2 
/0.62+0.62 0.5? +0. 3? +0. 6? 


| 0.6 0.6 
| 2 2 x 2 2 2 
J0. 62 +0.62? 0. 5? +0. 3? +0. 6 


a 0. 79 


soit FIDF (CS; ,人 ) = x 0.8 











X 0.9 











24 数值 型 数据 相似 度 算 法 


数值 型 数据 也 是 实体 识别 中 经 常 遇 到 的 数据 类 型 ， 比 如 生日 、 年 龄 、 年 份 、 价 格 、 折 扣 等 。 在 一 般 的 数据 处 理 中 ， 都 将 数字 当 作 字符 对 
待 ， 然 而 这 种 处 理 方式 不 适合 于 数值 型 属性 的 比较 。 比 如 ， 给 定年 份 1999 和 2000， 两 者 的 字符 串 相似 度 非 常 小， 但 是 两 者 实际 只 相差 一 年 ， 
应 该 通过 求 差 值 来 解决 : |1999-2000|。 在 实际 应 用 中 ， 根 据 实际 可 采用 精确 距离 或 范围 距离 来 度量 数值 型 数据 的 相似 度 。 日 期 型 相似 度 需 综 
合 年 、 月 、 日 来 计算 其 相似 度 ， 而 价格 相似 度 不 仅 需要 考虑 不 同 币 种 的 差异 ， 还 需要 考虑 相对 的 差 值 。 下 面 分 别 介绍 这 几 种 数值 型 相似 度 的 
计算 方法 。 


24.1 ”数字 型 相似 度 算法 


1. 精 确 距离 算法 


若 两 个 数字 型 字符 串 完全 相同 ， 则 相似 度 为 1， 否 则 为 0。 例 如 ， 对 于 图 书 的 ISBN 属 性 ， 只 有 当 两 条 图 书记 录 的 ISBN 属 性 完全 相同 时 ， 
才能 认为 它们 所 描述 的 为 同一 本 书 ， 因 此 可 以 利用 精确 距离 算法 来 计算 1SBN 属 性 间 的 相似 度 。 


2. 范 围 距离 算法 


如 果 当 两 个 数字 型 属性 值 n1 和 n2 在 数值 上 的 差 小 于 一 个 阅 值 ， 对 应 的 两 条 实体 记录 仍 存在 相互 等 价 的 可 能 性 ， 则 对 于 这 样 的 数字 型 数据 
我 们 可 以 采用 范围 距离 算法 来 计算 n1 和 mn2 的 相似 度 (如 公式 (2.12) Ao) 。 其 中 ，n1 和 n2 是 两 个 数字 型 数据 的 值 ，n 是 n1 和 n2 的 平均 值 。 





(ni — n)? + (n — n)’ 
See PET oe < (2. 12) 


n 





24.2 “日 期 型 相似 度 算 法 


日 期 型 数据 的 表达 方式 多 种 多 样 。 在 计算 日 期 型 数据 的 相似 度 前 ， 首 先 要 将 所 有 的 日 期 型 数据 都 转换 成 统一 的 表示 形 
式 “yyyy.mm.dd”， 其 中 “yyyy” 表 示 年 份 ，“mm” 表 示 月 份 ，“dd” 表 示 日 期 。 日 期 型 数据 相似 度 的 计算 方法 如 下 。 设 d1，d2 是 两 个 


日 期 型 属性 值 : 


. 车 日 期 的 比较 要 求 精确 到 年 ， 则 只 比较 d1 和 dz 的 “yyyy”， 若 两 个 属性 值 的 “yyyy” 相 等 ， 则 两 个 日 期 型 数据 的 相似 度 为 1 ， 否 则 为 0。 


“ 若 日 期 的 比较 要 求 精确 到 月 ， 则 比较 d1 和 dz 的 “yyyy” 和 “mm”， 若 “yyyy” 和 “mm” 都 相等 ， 则 两 个 日 期 型 数据 的 相似 度 为 1， 否 


则 为 0。 


“ 若 日 期 的 比较 要 求 精确 到 日 ， 则 比较 di 和 dz 的 “yyyy” “mm” 和 “dd”, 若 “yyyy”“mm” 和 “dd” 全 部 相等 ， 则 两 个 日 期 型 数据 的 


相似 度 为 1， 否 则 为 0。 


2.4.3 ”价格 型 相似 度 算 法 


对 于 价格 这 种 特殊 的 数据 类 型 ， 标 准 的 计算 文本 相似 度 的 方法 是 不 适用 的 ， 而 需要 一 种 新 的 衡量 标准 来 计算 。 考 察 两 个 价格 之 间 的 匹配 
程度 ， 绝 对 的 数值 差异 是 不 恰当 的 ， 需 要 考察 数值 的 相对 差 值 。 如 $ 285 $ 30 的 绝对 差 值 是 $ 2， 而 $ 28005 $ 3000 的 绝对 差 值 是 $ 200, 
可 见 ， 价 格 的 匹配 程度 不 能 由 绝对 差 值 来 衡量 。 可 采用 类 似 于 范围 距离 定义 价格 相似 度 。 


假设 p1 和 p2 是 两 条 价格 类 型 数据 ， 则 p1 和 p2 的 相似 度 定义 如 公式 (2.13) 所 示 。 其 中 ，p 是 指 两 个 价格 p1 和 pz 的 平均 值 。 
2 2 
(piv — pp)" a Ge p) 
2 (2. 13) 
另外 需要 注意 的 是 ， 不 同 领域 数值 的 相似 度 度量 准则 大 不 相同 ， 比 如 在 微观 测量 中 (如 分 子 结构 ) ，1 毫 米 的 差距 是 非常 大 的 ; 而 在 宏 
观测 量 中 如 天 文 测 距 ) ，1 毫 米 的 差距 是 微不足道 的 。 由 此 可 见 ， 数 值 型 数据 的 比较 函数 需要 根据 领域 知识 来 设计 。 





Sim(p; » ps) = ] 一 


2.5 ”本章 小 结 


本 章 介绍 了 基于 字段 的 相似 度 计 算 算 法 、 基 于 编辑 距离 的 相似 度 计 算 算 法 、 混 合 的 相似 度 计算 算法 和 数值 型 相似 度 计算 方法 。 在 实体 识 
别 方 法 中 ， 针 对 不 同类 型 的 属性 ， 应 基于 相应 的 相似 度 计 算 算法 度量 记录 属性 的 相似 度 。 
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第 3 草 ”实体 识别 的 分 块 技 术 


3.1 引言 
元 6 是 对 两 个 数据 集合 之 间 的 实体 建立 连接 ， 还 是 一 个 数据 集合 内 部 发 现 重复 实体 ， 实 体 识别 都 是 建立 在 两 个 记录 之 间 的 数据 匹配 基础 


之 上 的 。 对 于 小 规模 数据 ， 实 体 间 匹配 的 代价 并 不 高 ， 而 当 数 据 集 规模 逐渐 增加 ， 实 体 匹 配 的 处 理 效率 问题 将 逐步 显现 。 为 此 ， 本 章 着 重 介 
绍 解决 实体 识别 中 记录 匹配 效率 问题 的 数据 分 块 (Blocking) 技术 。 数 据 分 块 技 术 也 被 认为 是 针对 实体 识别 问题 而 设计 的 一 种 索引 技 


ARM, 


第 3 草 ”实体 识别 的 分 块 技 术 


无 论 是 对 两 个 数据 集合 之 间 的 实体 建立 连接 ， 还 是 一 个 数据 集合 内 部 发 现 重复 实体 ， 实 体 识 别 都 是 建立 在 两 个 记录 之 间 的 数据 匹配 基础 
之 上 的 。 对 于 小 规模 数据 ， 实 体 间 匹配 的 代价 并 不 高 ， 而 当 数 据 集 规模 逐渐 增加 ， 实 体 匹 配 的 处 理 效率 问题 将 逐步 显现 。 为 此 ， 本 章 着 重 介 
绍 解决 实体 识别 中 记录 匹配 效率 问题 的 数据 分 块 (Blocking) 技术 。 数 据 分 块 技 术 也 被 认为 是 针对 实体 识别 问题 而 设计 的 一 种 索引 技 


AM, 


3.1.1 ”数据 分 块 技术 的 应 用 
前 面 章节 中 已 经 介绍 了 实体 识别 是 通过 比较 两 个 记录 来 判断 其 各 自 所 描述 的 实体 是 否 对 应 同一 实体 的 。 实 体 识别 技术 所 面临 的 挑战 一 方 
包括 常用 的 查 全 率 (Precision) 和 查 准 率 (Recall) ， 而 另 一 方面 就 是 来 自 执行 效率 问题 。 由 于 记录 之 间 的 


面 来 自 识别 结果 的 准确 性 问题 ， 
匹配 是 完成 实体 识别 任务 的 基本 操作 ， 因 而 记录 匹配 的 执行 效率 很 大 程度 上 决定 着 实体 识别 的 执行 效率 。 下 面 先 来 看 一 下 造成 实体 识别 任务 


执行 效率 问题 的 原因 都 有 哪些 。 


决定 实体 识别 任务 执行 效率 的 因素 主要 包括 两 个 方面 : 一 个 是 实体 识别 过 程 中 需要 匹配 记录 对 (Record Pairs) 的 数量 ， 另 一 个 是 数据 
匹配 所 使 用 函数 的 计算 复杂 性 。 


一 方面 ， 对 于 记录 对 的 数量 ， 在 实体 识别 中 如 果 不 采 用 任何 优化 技术 ， 需 要 对 所 有 的 记录 对 进行 比较 以 判断 是 否 匹 配 。 这 意味 着 ， 如 果 
进行 实体 识别 的 对 象 是 分 别 包 含 m 和 nm 个 记录 的 两 个 数据 集合 ， 我 们 需要 对 m xn 个 记录 对 执行 比较 ， 以 便 找 出 那些 真正 对 应 同一 实体 的 记录 
对 。 而 如 果 使 用 实体 识别 技术 从 包含 n 个 记录 的 数据 集中 发 现 重复 记录 ， 则 对 于 每 个 记录 要 逐一 与 其 他 n-1 个 记录 进行 比较 以 识别 相同 实体 ， 
对 应 的 记录 对 比较 次 数 为 nx (n-1) /2。 对 于 大 数据 集 来 说 ， 这 样 的 执行 代价 显然 是 过 于 高 昂 的 。 以 DBLP 数 据 集 为 例 ， 现 在 已 经 包含 了 344 
万 篇 文献 信息 ， 如 果 执 行 发 现 重复 文献 的 实体 识别 ， 需 要 进行 将 近 3440000x (3440000-1) /2x5.9 万 亿 次 是 记录 间 比 较 操作 ， 假 设 每 0.001 
毫秒 可 以 执行 一 个 记录 对 的 匹配 ， 要 将 这 些 记 录 逐 一 比较 需要 1638.9 小 时 ， 这 个 时 间 是 很 难 让 使 用 者 接受 的 ， 而 其 中 重复 文献 的 数量 可 能 只 
是 其 中 很 小 的 一 部 分 。 


另 一 方面 ， 用 于 比较 记录 的 具体 匹配 遂 数 往往 也 具有 较 高 的 计算 代价 。 实 体 识 别 所 处 理 的 数据 对 象 往往 包含 一 些 拼写 错误 或 者 表述 异 构 
的 数据 信息 ， 这 样 就 需要 在 进行 记录 属性 的 匹配 中 使 用 基于 相似 性 的 比较 方法 。 从 第 2 章 所 介绍 的 数据 匹配 相似 性 计算 的 各 种 算法 中 可 以 看 
到 ， 基 于 相似 性 的 匹配 的 计算 代价 是 比较 高 的 ， 以 编辑 距离 相似 性 为 例 ， 采 用 动态 规划 方法 需要 O (n?) 的 复杂 性 。 


为 此 ， 需 要 在 实体 识别 中 使 用 一 定 的 优化 技术 来 提高 实体 识别 中 数据 记录 的 匹配 效率 。 通 过 观察 我 们 发 现 ， 在 实体 识别 中 无 论 是 匹配 数 
据 集 间 的 记录 ， 还 是 发 现 数据 集 内 的 重复 记录 ， 真 实 匹 配 的 记录 对 只 占 所 有 候选 匹配 记录 对 的 很 小 一 部 分 ， 而 大 量 的 记录 对 在 比较 后 被 证 实 
是 不 匹配 的 。 如 图 3-1 中 的 两 个 数据 集 ， 其 中 仅 有 一 对 打印 机 记录 是 匹配 的 。 因 此 ， 我 们 可 以 通过 在 候选 比较 集合 中 提前 移 除 那些 完全 不 可 
能 匹配 的 记录 对 ， 降 低 比较 记录 对 的 数量 ， 从 而 提高 实体 识别 的 性 能 。 数 据 分 块 就 是 一 种 通过 尽 可 能 地 减少 需要 进行 具体 比较 操作 的 记录 对 
数量 来 提高 实体 识别 效率 的 技术 。 
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图 3-1 ”电子 产品 的 实体 识别 样 例 


数据 分 块 的 基本 思想 是 将 数据 集合 基于 分 块 标准 (Blocking criteria) 划分 为 多 个 小 的 数据 块 ， 其 中 有 可 能 匹配 的 两 个 记录 会 划分 到 相 
同 的 数据 块 中 ， 然 后 再 对 每 个 数据 块 内 的 记录 进行 两 两 成 对 比较 ， 从 而 找 出 真实 匹配 的 记录 对 。 分 块 标准 通常 基于 实体 的 一 个 或 多 个 属性 设 
计 ， 因 此 也 被 称 为 分 块 键 (blocking key) 或 排序 键 (sorting key) 。 可 见 ， 数 据 分 块 技术 的 原理 与 数据 库 中 实现 查询 优化 的 散 列 索引 技术 
相似 。 


分 块 技 术 能 够 有 效 地 过 滤 掉 那些 匹配 可 能 性 低 的 记录 对 ， 从 而 降低 实体 识别 中 数据 记录 间 匹 配 的 代价 。 


3.1.2 ”实体 识别 数据 分 块 问题 定义 与 算法 分 类 
1 数据 分 块 问题 定义 


实体 识别 的 数据 匹配 主要 处 理 两 种 类 型 的 任务 : 一 种 是 处 理 面向 单一 数据 集合 的 消除 重复 (Deduplication) ， 另 一 种 是 两 个 数据 集合 
之 间 记 录 的 链接 (Linkage) ， 如 图 3-2 所 示 。 数 据 分 块 技术 主要 用 于 对 数据 匹配 进行 优化 ， 通 过 减少 匹配 的 记录 对 数量 来 提高 匹配 效率 。 数 
据 分 块 的 问题 定义 如 下 : 


定义 3.1 (HEIR) ”对 于 给 定数 据 记录 集合 R， 基 于 分 块 键 将 其 划分 为 多 个 数据 块 {C1，C2，.…，Cij ， 其 中 V1 有 CCR， 并 且 


U iCi=R。 














FEEE 








图 3-2 单一 数据 集 的 分 块 和 多 数据 集 的 分 块 
对 于 消除 重复 任务 ， 分 块 算法 要 处 理 数 据 集合 R， 而 对 于 记录 链接 任务 ， 则 要 处 理 参与 链接 的 两 个 数据 集合 R 和 5S。 


数据 分 块 基于 记录 在 分 块 结果 中 出 现 的 形式 分 为 不 相交 (Disjoint) 和 非 不 相交 (Non-disjoint) 两 类 。 不 相交 分 块 是 指 分 块 后 对 于 集合 
R 中 的 一 个 记录 在 分 块 后 仅 属于 一 个 数据 块 Ci， 即 Y 7 ，j 有 CinCj= 纪 。 非 不 相交 分 块 是 指 分 块 后 对 于 集合 R 中 的 记录 可 以 出 现在 多 个 数据 块 
+, 即 于 ，j 有 Cincz# 纪 。 属 于 哪 种 分 块 类 别 主 要 由 实现 数据 分 块 的 算法 和 选择 的 分 块 键 所 决定 。 它 们 也 是 决定 分 块 性 能 的 两 个 重要 步骤 。 


2 .数据 分 块 算法 分 类 


对 要 进行 实体 识别 的 数据 集合 采用 何 种 算法 进行 分 块 ， 主 要 取决 于 实体 识别 中 记录 间 的 匹配 方式 。 基 于 分 块 键 的 匹配 方式 可 以 将 分 块 算 
法 划分 为 基于 等 值 匹配 的 分 块 算法 和 基于 相似 性 的 分 块 算法 两 类 。 


基于 等 值 匹配 的 分 块 算法 主要 通过 使 用 记录 的 特征 属性 构建 分 块 键 ， 基 于 分 块 键 的 等 值 匹配 划分 数据 记录 ， 即 将 具有 相同 键 值 的 记录 划 
分 到 同一 个 块 中 。 其 中 ， 分 块 键 可 以 是 多 个 ， 而 记录 也 可 以 基于 多 个 分 块 键 被 划分 到 多 个 块 中 ， 如 果 两 个 记录 没有 在 任何 一 个 分 块 键 的 划分 
中 被 分 到 同一 个 数据 块 中 ， 则 这 两 个 记录 的 记录 对 将 不 会 执行 匹配 运算 。 


基于 相似 性 的 分 块 算法 主要 使 用 类 似 聚 类 的 算法 。 通 过 计算 分 块 键 之 间 的 相似 性 ， 将 可 能 匹配 的 数据 记录 聚集 到 同一 个 聚 类 集合 中 ， 在 
计算 相似 性 时 对 属于 同一 个 聚 类 集合 的 记录 进行 逐 对 匹配 。 基 于 相似 性 的 分 块 算法 有 很 多 种 ， 包 括 基于 滑动 窗口 的 分 块 算法 、 基 于 q-grams 
的 分 块 算法 、 基 于 聚 类 的 分 块 算法 和 基于 映射 的 分 块 算法 等 。 基 于 相似 性 的 分 块 算法 适合 于 处 理 低 质 数据 ， 如 具有 大 量 错 误 的 脏 数据 和 具有 
多 样 性 数据 描述 的 数据 。 


3.2 分 块 键 


在 实体 识别 中 具体 使 用 何 种 分 块 算法 能 够 获得 较 高 的 性 能 ， 需 要 根据 实体 识别 中 记录 间 的 相似 性 匹配 语义 和 所 选择 的 分 块 键 (Blocking 
Key) 来 决定 。 关 于 各 个 分 块 算法 的 原理 将 在 后 续 小 节 中 详细 介绍 。 


3.2.1 “分 块 键 的 定义 


分 块 键 的 定义 是 实体 识别 的 数据 分 块 技术 中 最 核心 的 问题 。 分 块 键 定义 的 主要 任务 是 选取 适合 的 记录 属性 或 属性 集合 作为 记录 分 组 的 依 
据 属 性 ， 每 个 分 块 键 值 将 作为 一 个 数据 分 块 标识 。 好 的 分 块 键 定义 应 该 能 够 将 相似 的 记录 成 功 地 划分 到 同一 个 数据 块 中 ， 从 而 实现 更 加 高 效 


的 记录 匹配 。 


1. 属 性 相似 性 分 类 


实体 识别 中 记录 间 匹 配 操作 主要 依赖 于 属性 值 间 的 数据 匹配 。 属 性 值 的 匹配 可 以 分 为 等 值 匹配 和 相似 性 匹配 两 种 情况 ， 其 中 相似 性 匹配 
根据 匹配 的 数据 特征 不 同 又 分 为 多 种 情况 。 关 于 属性 值 的 相似 性 具体 可 分 为 以 下 几 种 类 型 (算法 细节 详 见 本 书 第 2 章 内 容 ) 。 


1) 字符 文本 相似 性 。 字 符 文本 相似 性 主要 用 于 匹配 以 字符 串 类 型 描述 的 属性 值 ， 常 见 的 匹配 对 象 肥 人名、 地 名 、 商 品 描述 文本 等 ， 如 
图 3-1 中 打印 机 商品 的 描述 。 字 符 文本 相似 性 的 计算 方法 可 以 分 为 基于 字符 的 方法 和 基于 token 的 方法 ， 其 中 基于 token 的 方法 对 于 英文 文本 
可 以 通过 分 词 和 提取 词 干 进行 预 处 理 ， 而 对 于 中 文 则 需要 进行 中 文 分 词 才能 进一步 计算 。 


2) 数值 相似 性 。 数 值 相似 性 主要 用 于 匹配 以 数值 作为 属性 值 数据 类 型 的 属性 ， 如 年 龄 、 日 期 、 数 量 和 价格 等 ， 图 3-1 中 打印 机 的 打印 速 
度 和 分 辨 率 属 性 也 需要 适应 数值 相似 性 进行 匹配 。 


3) 发 音 相 似 性 。 发 音 相似 性 主要 用 于 匹配 英文 人 名 之 间 的 相似 性 ， 其 中 英文 人 名 的 字符 串 文本 通常 会 先 基于 字 节 的 发 音 进 行 编码 ， 再 
通过 编码 进行 匹配 。 这 主要 是 由 于 这 些 数据 在 数据 的 手工 输入 、 自 动 识别 等 采集 过 程 中 会 存在 错误 ， 从 而 不 利于 相似 性 计算 ， 因 此 ， 需 要 基 
于 发 音 编 码 方法 将 其 转换 成 分 块 键 值 以 便于 处 理 。 常 见 的 编码 算法 包括 Soundex、NYSIIS 和 Double-Metaphone 等 。 


2. 影 响 分 块 键 定义 的 要 素 


基于 属性 值 匹配 中 的 相似 性 语义 ， 对 分 块 键 进行 定义 时 需要 考虑 以 下 几 个 方面 。 











1) 属性 的 数据 质量 。 属 性 的 数据 质量 主要 指 属性 的 完备 性 和 准确 性 ， 是 决定 分 块 键 定 义 的 主要 因素 。 属 性 的 完备 性 用 于 衡量 该 属性 上 
各 个 记录 的 属性 值 缺失 或 为 空 的 情况 。 如 果 在 分 块 键 上 存在 大 量 的 记录 缺少 对 应 的 属性 值 ， 那 么 在 进行 数据 分 块 时 这 些 记录 将 被 划分 到 同一 
个 数据 块 中 ， 这 对 于 分 块 后 的 记录 匹配 是 十 分 不 利 的 ， 因 为 基于 分 块 键 的 空 值 被 划分 到 同一 个 数据 块 的 两 个 记录 相似 的 可 能 性 并 不 高 。 属 性 
的 准确 性 是 指 在 记录 对 应 的 属性 取 值 上 与 各 记录 真实 值 相 比 的 准确 性 。 对 于 具有 较 高 完备 性 的 属性 来 说 ， 一 旦 属性 值 中 存在 大 量 的 错误 ， 就 
会 导致 在 分 块 时 记录 被 划分 到 错误 的 数据 块 中 ， 进 而 影响 实体 识别 任务 的 效率 和 准确 性 。 因 此 ， 在 选择 分 块 键 时 应 选择 属性 值 具 有 较 高 数据 
完备 性 和 准确 性 的 属性 。 





2) 属性 值 的 频率 分 布 。 分 块 键 在 属性 值 上 的 频 度 分 布 会 影响 数据 分 块 中 分 块 的 生成 数量 和 每 个 数据 块 中 包含 记录 的 数量 。 一 旦 某 个 属 
性 值 在 记录 中 频繁 出 现 ， 以 该 属性 作为 分 块 键 时 就 会 出 现 分 块 的 数据 倾斜 ， 即 在 某 些 分 块 中 具有 大 量 的 记录 ， 而 其 他 分 块 中 的 记录 较 少 。 例 
如 ， 我 们 在 对 人 的 实体 识别 中 如 果 选 择 人 的 姓氏 作为 分 块 键 并 生成 键 值 ， 则 由 “ 李 ”“ 王 ”和 “ 张 ”等 在 中 文中 最 常见 的 姓氏 (2010 年 人 口 
普查 ， 以 上 姓氏 汉族 比例 分 别 为 7.94%、7.41% 和 7.07%) 作为 分 块 键 将 产生 较 大 的 数据 分 块 ， 而 每 个 数据 分 块 中 都 需要 对 记录 进行 两 两 匹 
配 ， 因 此 会 严重 影响 分 块 的 效率 。 因 此 ， 分 块 属性 的 属性 值 在 频率 分 布 上 一 旦 存在 倾斜 ， 就 会 严重 影响 分 块 的 效率 。 通 常 来 说 ， 分 块 属性 的 
属性 值 数 量 越 多 ， 频 率 分 布 越 平均 (均匀 分 布 ) ， 分 块 后 的 记录 匹配 效率 越 高 ， 因 为 这 样 可 以 有 效 地 减少 记录 匹配 的 数量 。 


3) 分 块 数量 与 大 小 之 间 的 平衡 。 分 块 的 数量 主要 由 分 块 属性 的 属性 值 数量 所 决定 ， 而 分 块 的 大 小 则 由 属性 值 对 应 的 分 块 大 小 所 决 
ge [7] ， 在 实体 识别 的 分 块 效率 方面 需要 对 这 两 个 值 进行 平衡 才能 够 解决 分 块 结果 上 匹配 代价 和 匹配 收益 间 的 平衡 问题 。 如 果 分 块 的 数量 较 
少 则 每 个 分 块 中 的 记录 数量 会 增加 ， 这 样 会 增加 实体 的 记录 对 匹配 数量 ; 如 果 分 块 数量 较 多 而 每 个 分 块 中 记录 较 少 ， 虽 然 会 产生 较 少 的 匹配 
记录 对 ， 但 是 这 样 会 影响 实体 识别 的 召回 率 ， 即 实体 匹配 结果 中 发 现 真实 匹配 对 的 数量 会 减少 。 通 常情 况 下 ， 构 建 一 个 特殊 的 分 块 键 能 够 增 
加 分 块 的 数量 并 缩减 分 块 的 大 小 。 由 于 单一 属性 的 属性 值 很 难保 证 分 块 大 小 的 均衡 性 ， 因 此 通常 采用 多 个 属性 组 合 的 方式 构建 分 块 键 ， 甚 至 
使 用 编码 技术 对 属性 值 进行 处 理 ， 这 样 不 仅 可 以 产生 大 量 较 小 的 分 块 ， 还 能 够 提高 分 块 的 准确 性 。 


以 上 三 个 因素 是 在 基于 实体 属性 的 等 值 匹配 进行 实体 识别 时 ， 定 义 分 块 键 所 需 考虑 的 内 容 。 然 而 在 实际 应 用 中 ， 实 体 识别 要 处 理 的 数据 
有 很 多 都 是 脏 数据 ， 即 记录 的 属性 值 中 大 量 错误 或 者 多 样 性 的 表述 方式 。 这 是 分 块 键 定义 中 需要 解决 的 一 个 重要 问题 。 低 质 的 属性 直接 作为 
分 块 键 会 造成 相似 的 记录 被 划分 到 不 同 的 数据 块 中 ， 从 而 造成 实体 识别 性 能 的 下 降 。 因 此 ， 在 分 块 键 的 定义 中 也 要 考虑 对 于 低 质 的 属性 值 需 
要 能 够 通过 相似 性 方法 将 相似 的 记录 划分 到 同一 个 数据 块 ， 以 便 能 够 有 机 会 进行 匹配 计算 。 例 如 在 图 3-1 中 ， 两 个 数据 源 中 都 包含 “Canon 
MF212w" ， 但 描述 内 容 上 却 并 不 相同 ， 如 果 直 接 基于 该 商品 描述 属性 值 进行 分 块 ， 则 可 能 会 被 划分 到 不 同 的 数据 块 中 。 为 此 需要 采用 合适 
的 方法 解决 这 一 问题 。 





一 种 简单 、 常 用 的 方法 是 定义 多 个 不 同 的 分 块 键 。 这 种 方法 的 思想 是 选择 实体 的 多 个 属性 ， 都 定义 作为 数据 集合 的 分 块 键 ， 在 进行 分 块 
操作 时 ， 依 据 各 个 分 块 键 划分 记录 并 生成 候选 的 匹配 记录 对 ， 最 后 对 每 个 分 块 键 所 生成 的 匹配 记录 对 进行 合并 ， 消 除 其 中 重复 的 匹配 记录 
对 ， 以 生成 最 终 的 匹配 任务 。 一 个 改进 的 多 分 块 键 方法 3] 可 以 执行 多 趟 的 分 块 操作 。 每 趟 分 块 中 使 用 不 同 分 块 键 对 记录 进行 分 块 ， 并 对 候 
选 记录 对 进行 比较 ， 匹 配 的 记录 对 在 下 一 趟 分 块 处 理 中 将 被 移 除 。 另 一 种 方法 是 使 用 不 同 的 分 块 键 定义 方法 生成 多 个 分 块 键 值 ， 表 将 记录 基 
于 多 个 分 块 键 值 分 别 划分 到 不 同 的 数据 块 中 。 

这 些 方法 的 优点 在 于 对 于 一 个 数据 记录 而 言 ， 多 个 分 块 键 中 只 要 有 一 个 分 块 键 值 没有 错误 ， 这 个 记录 就 能 够 被 划分 到 一 个 正确 的 分 块 
中 ， 其 中 包含 有 可 能 与 该 记录 相似 的 记录 。 因 此 ， 两 个 相似 的 记录 只 要 有 一 个 相同 的 分 块 键 值 ， 就 能 够 产生 对 应 的 匹配 记录 对 ， 从 而 降低 丢 
失 匹 配 的 概率 。 

实体 识别 的 分 块 算法 都 需要 进行 分 块 键 定义 ， 因 此 分 块 键 定义 也 成 为 分 块 算法 优化 的 一 部 分 。 优 化 的 目标 主要 体现 在 两 方面 : 所 有 匹配 
的 记录 对 都 被 包含 在 候选 匹配 记录 对 中 ; 生成 尽 可 能 少 的 候选 匹配 记录 对 。 


3. 分 块 键 定义 的 方法 


分 块 键 的 定义 包括 选择 实体 属性 和 定义 由 属性 值 生成 分 块 键 值 的 分 块 函 数 (Blocking Function) 。 传 统 的 分 块 键 定义 方法 是 采用 基于 
专家 对 领域 和 数据 的 经 验 ， 以 人 工 的 方式 从 实体 的 属性 集合 中 选择 适合 于 分 块 的 属性 和 生成 分 块 键 值 的 分 块 函 数 。 例 如 ， 在 图 3-1 的 数据 
中 ， 我 们 根据 经 验 可 以 选择 “打印 机 描述 ” “打印 速度 ”和 “打印 分 辨 率 ” 作 为 分 块 键 ， 而 对 于 价格 属性 则 不 适合 作为 分 块 键 ， 因 为 相同 商 
品 在 不 同 网 站 上 往往 具有 不 同 的 价格 。 对 于 分 块 冰 数 的 选择 一 般 需 要 根据 属性 值 的 特征 来 决定 ， 对 于 英文 文本 生成 分 块 键 值 通常 使 用 以 下 几 
种 方法 。 

1) 使 用 字符 串 的 前 三 个 字符 作为 键 值 。 该 方法 通常 用 于 人 的 姓氏 ， 用 来 对 人 员 信息 进行 划分 。 

2) 组 合 多 个 属性 值 作为 键 值 。 该 方法 基于 组 合 属性 定义 分 块 键 ， 例 如 由 多 个 属性 表示 的 地 址 信息 中 “省 ”“ 市 ”“ 区 ”和 “邮编 ” 属 
性 可 以 组 合 为 “省 ”+ “市 ” +“ 区 ”+ “邮编 ”这 样 一 个 统一 的 值 。 


3) 基于 单词 发 音 的 编码 。 该 方法 根据 发 音 特 征 对 单词 进行 编码 ， 一 般 用 于 对 人 名 属性 进行 编码 转换 ， 在 下 一 小 节 中 将 详细 介绍 。 


4) 基于 token 的 多 键 值 。 该 方法 基于 q-grams 方 法 或 分 隔 符 将 属性 值 生成 多 个 token 作 为 分 块 键 值 ， 通 常用 于 具有 较 长 文本 的 属性 或 分 
块 算法 中 需要 处 理 脏 数据 问题 的 情况 。 例 如 对 “peter” 进行 3-grams 划 分 可 以 得 到 token 集 合 { “pet”， “ete” , “ter” }, 

在 一 些 实体 识别 任务 中 ， 实 体 的 属性 较 多 ， 并 且 属 性 上 的 数据 分 布 未 知 ， 对 于 这 种 情况 很 难 基于 经 验 对 分 块 键 进 行 定义 。 针 对 这 一 问 
题 ， 近 来 有 相关 工作 提出 了 一 些 基于 学 习 的 分 块 键 定义 技术 [4,11] 。 首 先 需要 有 一 个 已 知 记录 间 真 实 匹 配 关 系 的 训练 数据 集 ， 再 采用 有 监 
督 的 机 器 学 习 方 法 学 习 出 适合 作为 分 块 键 的 实体 属性 和 分 块 函数 。 关 于 基于 学 习 的 分 块 键 定义 方法 的 具体 内 容 将 在 本 章 后 续 小 节 介绍 。 


基于 学 习 的 分 块 键 定义 方法 对 于 训练 数据 集 具有 较 高 的 要 求 。 训 练 数据 集 要 具有 较 高 的 数据 质量 和 对 实际 实体 识别 数据 集合 足够 的 覆 
盖 ， 即 其 中 包含 的 记录 要 具有 足够 的 多 样 性 ， 这 样 得 出 的 分 块 键 定 义 才 能 够 具有 较 高 的 优化 效果 。 因 此 ， 在 很 多 情况 下 ， 实 体 识别 数据 分 块 
依然 采用 人 工 定 义 的 方式 。 


3.2.2 分 块 键 的 编码 
为 了 实现 在 分 块 键 上 的 相似 性 匹配 ， 即 容忍 分 块 键 值 的 错误 或 多 样 性 ， 可 以 采用 对 分 块 键 编码 的 处 理 方式 ， 通 过 编码 函数 将 属性 值 进行 
编码 后 再 作为 分 块 键 P] 。 分 块 键 编码 主要 用 于 处 理 基于 文本 发 音 进 行 相似 性 匹配 的 分 块 方法 。 


基于 单词 发 音 的 编码 函数 的 基本 思想 是 将 属性 值 的 字符 捉 转 换 为 一 个 代码 ， 这 个 代码 与 字符 串 的 发 音 相 对 应 。 现 有 分 块 键 编码 技术 多 数 
是 基于 英文 设计 的 ， 也 有 部 分 方法 考虑 其 他 语言 的 发 音 特性 。 下 面 简要 介绍 一 下 这 些 基 于 发 音 的 编码 方法 。 


1) Soundex 是 最 早 和 应 用 最 广泛 的 基于 发 音 的 编码 算法 [6，/] 。Soundex 编 码 算法 是 将 字符 串 的 首 字母 保留 ， 再 将 后 续 字 符 基 于 转换 


表 转 换 为 一 串 数 字 。Soundex 算 法 的 优点 是 简单 且 计 算 代价 小 ， 缺 点 是 首 字 母 一 旦 不 一 致 将 导致 编码 后 分 块 键 具 有 不 同 的 键 值 。 


2) Phonex 编 码 算法 [8] 构建 于 Soundex 算 法 之 上 ， 增 加 了 一 个 文本 预 处 理 的 步 又。 在 进行 编码 处 理 之 前 ， 先 使 用 一 组 规则 将 编码 的 单 
词 进行 基于 发 音 的 字符 转换 ， 如 对 于 开头 是 “ph” 的 单词 ， 其 首 字符 将 被 转换 为 “f” ， 后 面 的 处 理 则 与 Soundex 算 法 一 致 。 


3) Phonix 编 码 算法 与 Phonex 相 同 ， 都 采用 了 文本 预 处 理 技术 ， 区 别 是 字符 转换 规则 更 多 ， 且 在 字符 转换 为 数字 时 所 使 用 的 转换 表 与 
Soundex 算 法 不 同 。 


A) NYSIIS 编 码 算法 Ol 的 全 称 是 纽约 州 识别 与 智能 系统 (New York State Identification and Intelligence System) ， 其 使 用 了 与 
Soundex 不 同 的 编码 转换 规则 ， 其 中 不 再 将 首 字 母 之 外 字母 转换 为 数字 ， 而 是 将 其 转换 为 字符 。 


5) Double-Metaphone 编 码 算法 [10] 主要 解决 欧洲 语言 和 亚洲 语言 中 人 名 的 发 音 编码 问题 ， 因 此 相 比 于 之 前 的 编码 算法 加 入 了 更 多 
的 转换 规则 。 对 于 一 些 人 名 ，Double-Metaphone 算 法 会 基于 不 同 的 发 音 规则 产生 两 个 编码 结果 ， 以 保证 分 块 的 准确 性 。 


6) Fuzzy Soundex 编 码 算 法 采用 了 与 Soundex 相 似 的 转换 表 ， 不 过 在 预 处 理 阶 段 则 是 采用 了 q-grams 方 法 将 字符 替换 为 数字 。 


基于 发 音 的 编码 方法 几乎 都 是 面向 英文 文本 而 设计 的 ， 一 般 用 于 在 人 名 这 类 属性 上 定义 分 块 键 的 情况 。 对 于 其 他 语言 文字 的 编码 方法 目 
前 很 少 。 


3.3 ”基于 等 值 匹配 的 分 块 算法 


基于 等 值 匹配 的 分 块 算法 即 主要 通过 实体 的 特征 属性 定义 出 一 个 或 多 个 分 块 键 的 方法 。 基 于 记录 在 分 块 键 上 的 键 值 将 记录 放 入 对 应 的 数 
据 块 中 ， 如 果 两 个 记录 没有 在 任何 分 块 键 上 具有 相同 的 键 值 ， 则 这 两 个 记录 就 不 会 同时 出 现在 相同 的 数据 块 中 ， 也 就 不 会 执行 记录 间 的 匹 
配 。 下 面 将 对 常用 的 分 块 算法 进行 逐一 介绍 。 


3.3.1 标准 分 块 方法 


数据 分 块 方法 已 经 在 各 类 实体 识别 任务 中 被 广泛 使 用 。 标 准 的 记录 分 块 方法 是 基于 实体 属性 定义 一 个 记录 上 的 分 块 键 ， 每 个 记录 通过 一 
个 分 块 键 上 的 分 块 函 数 生成 一 个 分 块 键 值 (Blocking Key Value) ， 这 个 分 块 键 值 将 决定 该 记录 被 分 配 到 哪个 数据 块 中 。 分 块 冰 数 通常 是 一 
个 hash 函 数 ， 这 样 具有 相同 属性 值 的 记录 会 被 生成 相同 的 分 块 键 值 ， 并 被 分 配 到 同一 个 数据 块 中 。 在 同一 个 数据 块 中 ， 如 果实 体 识别 任务 是 
消除 重复 ， 则 记录 会 进行 两 两 相似 性 比较 以 找 出 匹配 的 记录 对 ; 如 果实 体 识别 任务 是 两 个 数据 集合 的 记录 链接 ， 则 在 两 个 数据 集合 中 记录 的 
随 卡 儿 积 上 执行 比较 操作 找 出 匹配 的 记录 对 。 


标准 分 块 方法 的 一 种 有 效 的 实现 方式 是 使 用 倒 排 索 引 这 种 数据 结构 。 在 对 数据 进行 分 块 时 ， 每 个 分 块 键 值 将 被 作为 倒 排 索引 上 的 一 个 索 
引 项 ,一 旦 有 记录 生成 了 相应 的 分 块 键 值 ， 该 记录 将 被 加 入 到 这 个 索引 项 的 列表 中 。 这 样 每 个 索引 项 的 列表 就 对 应 了 一 个 记录 分 块 。 例 如 ， 
我 们 对 图 3-1 中 数据 记录 进行 分 块 处 理 ， 分 块 键 定义 为 打印 速度 ， 结 果 如 图 3-3 所 示 。 其 中 两 个 数据 集合 在 “13” 和 “24” 两 个 分 块 (索引 
项 ) 上 有 公共 记录 ， 因 此 将 对 这 两 个 数据 块 中 的 记录 进行 比较 。 


Walmart 打印 速度 分 块 Bestbuy 
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4800x1200 600x600 


图 3-3” 样 例 数据 上 基于 倒 排 索引 的 标准 分 块 


标准 分 块 方法 仅 定 义 了 一 个 分 块 键 ， 这 样 在 分 块 键 上 有 脏 数 据 和 数据 多 样 性 的 情况 下 ， 会 出 现 丢 失 记录 匹配 对 的 问题 ， 即 因为 其 中 一 个 
或 多 个 记录 的 属性 值 存在 错误 而 没有 被 划分 到 正确 的 数据 块 中 ， 从 而 没有 识别 出 真实 匹配 的 两 个 记录 。 为 了 解决 这 一 问题 ， 采 用 创建 多 个 分 
块 键 或 生成 多 个 分 块 键 值 的 思想 ， 以 便 记录 能 够 被 划分 到 多 个 数据 分 块 中 与 其 他 记录 匹配 。 对 于 定义 了 多 个 分 块 键 的 情况 ， 需 要 为 每 个 分 块 
键 创建 倒 排 索引 生成 相应 的 数据 分 块 。 每 个 分 块 键 的 分 块 单独 生成 候选 匹配 记录 对 。 一 个 候选 匹配 记录 对 可 能 在 多 个 分 块 键 的 分 块 结果 中 出 
现 ， 但 是 由 于 要 对 多 分 块 键 产生 的 候选 匹配 记录 对 进行 合并 处 理 ， 因 此 在 实际 记录 间 的 比较 阶段 仅 会 被 比较 一 次 。 如 图 3-3 中 ， 在 “打印 速 
度 ” 和 “分 辩 率 ”两 个 属性 上 定义 了 分 块 键 ， 则 为 两 个 分 块 键 都 创建 了 基于 倒 排 索引 的 数据 分 块 ， 其 中 “打印 速度 ”分 块 键 生 成 
(W5, B1) 、 (W5, B2) 和 (W3, B4) 三 个 候选 匹配 记录 对 ，“ 分 辨 率 ” 分 块 键 生成 (W2, B1). (W2, B2). (W4, B1) 、 
(W4, B2). (W3, B3) 和 (W3, B4) 六 个 候选 匹配 记录 对 ， 其 中 (W3, B4) 虽然 出 现 两 次 ， 但 只 会 执行 一 次 比较 。 


在 标准 分 块 方法 中 ， 每 个 分 块 中 的 记录 会 进行 两 两 比较 ， 那 么 下 面 来 分 析 一 下 标准 分 块 方法 在 消减 候选 匹配 记录 对 上 的 效率 。 为 了 便于 
计算 ,假设 记录 在 分 块 键 值 上 是 均匀 分 布 的 。 对 于 两 个 数据 集合 间 的 记录 链接 问题 ， 假 设 两 个 数据 集合 中 记录 数量 分 别 为 m 和 n， 分 块 键 值 
的 数量 为 bp， 则 两 个 数据 集合 的 每 个 数据 块 中 分 别 有 m/b 和 my/b 个 记录 。 因 此 ， 分 块 后 两 个 数据 集合 需要 匹配 的 记录 对 数量 c 为 : 


ca b( eH) men 3.1) 


而 对 于 单数 据 集合 上 的 消除 重复 任务 ， 假 设 该 数据 集合 包含 n 个 记录 ， 分 块 键 值 的 数量 为 b， 则 每 个 数据 块 包含 n/b 个 记录 ， 分 块 后 需要 
匹配 的 记录 对 数量 c 为 : 


n -(2-1))= 28) (3.2) 


i = b 2b 


从 以 上 两 个 公式 可 以 看 出 ,分 块 键 上 的 分 块 键 值 越 多 (b 值 越 大 ) ， 所 生成 的 候选 匹配 记录 对 数量 就 越 少 ， 分 块 后 记录 比较 的 性 能 提升 
就 越 明 显 。 但 过 多 的 分 块 键 值 会 将 原本 相似 的 记录 划分 到 不 同 的 数据 块 中 ， 这 一 点 也 是 分 块 键 定义 中 需要 注意 的 问题 之 一 。 


3.3.2 ”基于 学 习 的 分 块 键 定义 


在 上 一 节 中 提 到 ， 分 块 键 的 定义 对 于 分 块 性 能 的 影响 非常 大 ， 发 现 最 优 的 分 块 键 定义 能 够 显著 地 提升 发 现 候选 匹配 记录 对 的 性 能 ， 即 尽 
可 能 少 地 生成 记录 对 比较 任务 并 发 现 最 多 的 真实 的 匹配 记录 对 。3.2.1 节 中 提 到 的 已 有 工作 [4'11] 提出 了 基于 学 习 的 分 块 键 定义 方法 。 这 些 
工作 都 采用 了 基于 训练 集 的 有 监督 机 器 学 习 方法 ， 其 中 训练 集中 标注 了 真实 匹配 记录 对 和 不 匹配 记录 对 。 这 类 方法 首先 生成 候选 的 分 块 键 ， 
再 使 用 训练 集 数据 找 出 候选 分 块 键 上 具有 最 高 覆盖 度 (coverage) 和 最 高 准确 性 (accuracy) 的 分 块 键 组 合 。 覆 盖 度 和 准确 性 是 度量 分 块 性 
能 的 两 个 重要 指标 。 这 里 覆盖 度 是 指 被 分 块 键 划分 后 所 产生 的 记录 对 中 ， 真 实 匹配 记录 对 与 训练 集中 真实 匹配 的 记录 对 的 比率 。 准 确 性 指 被 
分 块 键 划分 后 所 产生 的 记录 对 中 真实 匹配 记录 对 的 比率 。 

下 面 主要 介绍 Bilenko 等 人 提出 的 分 块 键 定义 方法 |] 。 该 方法 将 分 块 键 定义 的 学 习 转 换 为 了 一 个 等 价 于 红 蓝 集合 覆盖 问题 (red-blue 
set cover problem) [1% 的 最 优化 问题 。 优 化 的 目标 是 找 出 分 块 后 能 够 消除 最 多 数量 的 候选 匹配 记录 对 ， 并 保留 近乎 全 部 匹配 记录 对 。 


将 分 块 键 定 义 问题 映射 为 红 蓝 集合 覆盖 问题 ， 表 示 为 由 三 类 顶点 构成 的 图 。 如 图 3-4 所 示 ， 训 练 集 中 所 有 匹配 的 正 例 记 录 对 (positive 
examples) 用 下 排 的 蓝 色 结 点 B={b1，.…，bm} 表 示 ， 所 有 不 匹配 的 反例 记录 对 (negative examples) 用 上 排 的 红色 结 点 R={r1，…，rn} 表 
示 ， 其 中 中 间 白 色 结 点 为 分 块 键 结 点 K= 代 1，.…，Kt}。 对 于 每 个 分 块 键 ki， 正 例 结 点 和 反例 结 点 通过 与 该 结 点 相连 接 的 集合 称 为 这 个 分 块 键 所 
生成 的 候选 匹配 对 在 训练 数据 上 的 覆盖 ， 分 别 用 b (kj) FOr (ki) 表示 。 则 最 优化 问题 可 以 定义 为 : 


定义 3.2 (最 优化 分 块 键 定义 ) ”从 给 定 的 t 个 候选 分 块 键 中 选择 k 个 分 块 键 ， 使 得 至 少 履 盖 m-e 个 正 例 记录 对 ， 且 履 盖 的 反例 记录 对 最 


不 匹配 的 反例 记录 对 
R={r °° JODY AY;} 
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匹配 的 正 例 记 录 对 
B={b,,°°°,b,, }={ (X;X)):V=V;} 


图 3-4 ”分 块 键 定义 的 红 蓝 集合 履 盖 


红 蓝 集合 覆盖 问题 已 被 证 明 是 一 个 NP-Hard 问 题 ， 这 里 使 用 贪 禁 算 法 获得 问题 的 近似 解 。 算 法 的 近似 比 为 2 Vo loga B-12], RRE 
法 的 具体 处 理 步骤 如 下 。 


1) 从 候选 分 块 键 集合 中 删除 覆盖 了 反例 记录 对 数量 超过 mn 的 分 块 键 ， 即 删除 r (ki) >n 的 分 块 键 。n 的 取 值 可 以 设 定 为 训练 集中 记录 对 数 
量 的 一 个 比例 值 。 删 除 包含 反例 过 多 的 分 块 键 可 以 减少 结果 中 覆盖 的 反例 记录 对 数量 。 如 果 删 除 分 块 键 后 ， 剩 余 分 块 键 集合 K 覆盖 的 正 例 记 


录 对 数量 B (K') 不 足 m-s 个 ， 则 说 明 n 的 取 值 过 小 从 而 删除 了 过 多 的 分 块 键 ， 因 此 需要 提高 "的 取 值 ， 以 使 剩余 分 块 键 覆盖 的 正 例 记 录 对 数 
量 满足 B (K) >m-e, 


2) 设置 7 一 viog" ， 从 反例 记录 对 中 删除 被 Y 个 分 块 键 所 覆盖 的 反例 记录 对 ， 即 对 于 riER， 如 果 deg (r, K) >y 则 删除 该 反例 记录 
对 ， 其 中 deg (ri K) 表示 记录 对 ri 被 分 块 键 覆 盖 的 数量 。 这 一 步骤 的 原因 是 要 删除 那些 在 很 多 分 块 键 下 都 会 被 划分 到 同一 个 分 块 中 的 反例 
记录 对 ， 因 为 这 样 的 反例 记录 对 中 的 两 个 实体 对 于 多 数 分 块 键 都 会 无 法 将 其 区 分 。 


3) 基于 反例 集合 构建 加 权 的 集合 覆盖 T， 其 中 对 于 集合 K 中 的 每 个 分 块 键 ki 创建 一 个 集合 Tri， 对 应 的 权 值 设置 为 w (tj) =|r (kj) |. 


4) 迁 代 执行 覆盖 集 构 建 过 程 。 首 先 设置 集合 覆盖 T= 和 ， 每 次 迁 代 中 基于 贪 禁 的 启发 式 规则 ， 选 取 K' 中 |b' (T) Vw (Ti) 值 最 大 的 分 
块 键 k: 加 入 到 T* 中 ， 同 时 将 b”(Ti) 从 B 中 移 除 ， 直 到 |B|<s 为 止 ， 返 回 T 作 为 选取 的 分 块 键 集合 。 其 中 ，b' (T) 为 每 次 迭代 分 块 键 kj 在 当前 
正 例 集合 B 中 的 正 例 覆盖 。 


其 中 ，* 是 用 来 调节 算法 执行 效率 的 参数 。 在 实际 应 用 中 ， 可 以 先 将 设置 为 0， 即 要 求 覆 盖 训 练 集中 全 部 的 正 例 记 录 对 ， 如 果 对 于 手中 
的 训练 数据 集 来 说 这 个 算法 执行 的 代价 过 高 ， 再 逐渐 增加 s 的 值 。 


3.4 ”基于 相似 性 的 分 块 算法 


在 实际 的 实体 识别 任务 中 ， 脏 数据 和 数据 描述 的 多 样 性 使 得 我 们 需要 在 实体 间 的 匹配 中 对 记录 的 属性 值 进行 相似 性 比较 ， 以 决定 两 个 记 
录 是 否 描述 同一 实体 。 在 这 种 情况 下 ， 直 接 使 用 分 块 键 对 应 属性 的 属性 值 或 属性 值 的 编码 作为 分 块 键 值 ， 会 造成 原本 相似 并 且 匹 配 的 两 个 记 
录 被 划分 到 不 同 数据 块 中 ， 从 而 丢失 对 真实 匹配 记录 对 的 识别 。 这 是 由 于 分 块 键 值 之 间 的 差异 过 大 ， 不 能 用 简单 的 等 值 比较 判断 匹配 造成 
的 。 例 如 ， 在 图 3-1 中 ， 如 果 将 “打印 机 描述 ”属性 定义 为 分 块 键 ， 如 果 使 用 等 值 比较 方法 则 任何 两 个 记录 都 不 会 被 划分 到 相同 分 块 中 。 
此 ， 在 很 多 情况 下 ， 对 于 分 块 键 需要 使 用 基于 相似 性 的 比较 算法 ， 并 基于 该 算法 对 数据 记录 进行 分 块 。 关 于 属性 值 之 间 的 相似 性 算法 在 上 一 
章 中 已 经 进行 了 详细 介绍 。 基 于 相似 性 的 分 块 算法 包括 基于 属性 值 排 序 的 滑动 窗口 分 块 方法 、 基 于 聚 类 的 分 块 方法 以 及 基于 属性 值 间 Jaccard 
相似 性 的 各 种 分 块 方法 。 下 面 逐 一 对 这 些 分 块 方法 进行 介绍 。 


3.4.1 基于 排序 的 分 块 方法 


基于 排序 的 分 块 方法 (Sorted Neighbourhood Approach) 04 是 较 早 被 提出 用 于 蔡 代 标准 分 块 方法 的 技术 。 不 同 于 标准 分 块 方法 
中 生成 分 块 键 的 键 值 ， 这 种 方法 采用 基于 属性 对 数据 集合 中 记录 进行 排序 的 方式 组 织 数据 ， 用 于 排序 的 属性 称 为 排序 键 (Sorting Key) ， 其 
作用 和 生成 方法 与 分 块 键 都 十 分 相似 。 在 基于 排序 的 分 块 方法 中 ， 需 要 设 定 一 个 大 小 为 整数 w 的 滑动 窗口 (Sliding Window) ， 每 次 候选 匹 
配 记录 对 都 是 从 滑动 窗口 中 的 记录 生成 的 ， 因 此 这 类 方法 也 被 称 为 基于 滑动 窗口 的 方法 。 


1. 基 于 排序 分 块 方法 的 原理 


基于 排序 的 分 块 方法 原理 十 分 简单 : 数据 集合 中 所 有 记录 按照 排序 键 上 的 键 值 进行 排序 ， 然 后 利用 设置 好 的 滑动 窗口 大 小 在 排序 的 记录 
集合 上 面 依次 移动 ， 每 个 滑动 窗口 可 以 看 作 一 个 分 块 ， 每 次 移动 后 利用 在 滑动 窗口 内 的 记录 生成 新 的 候选 匹配 记录 对 ， 直 至 访问 完全 部 记 
录 。 
如 图 3-5a 所 示 ， 面 向 单数 据 集合 ， 基 于 排序 的 分 块 方法 进行 比较 以 消除 重复 记录 ， 其 中 滑动 窗口 大 小 设置 为 w=3。 滑 动 窗口 首先 从 
a1~a3 的 区 域 开始 生成 候选 匹配 记录 对 ， 之 后 每 次 移动 1 个 位 置 并 生成 新 的 候选 匹配 记录 对 ， 其 中 第 一 次 移动 后 将 增加 新 的 候选 记录 对 
(a2, a4) 和 (a3, a4) 。 


然而 ， 对 于 两 个 数据 集合 间 的 记录 链接 任务 ， 在 实际 的 执行 中 ， 基 于 滑动 窗口 的 方法 在 对 数据 记录 基于 排序 键 排序 之 前 需要 先 执行 两 个 
集合 的 合并 操作 ， 然 后 再 对 合并 后 的 数据 集合 整体 排序 。 在 执行 窗口 的 滑动 时 ， 是 在 合并 后 的 排序 键 值 序列 上 进行 滑动 。 这 种 方式 的 优点 在 


于 能 够 将 两 个 数据 集合 中 相似 的 记录 放 在 较 近 的 位 置 ， 以 便 能 够 被 包含 到 同一 个 窗口 中 。 如 图 3-5b 所 示 为 两 个 数据 集合 的 记录 链接 ， 其 中 两 
个 数据 集合 的 记录 先 被 合并 ， 青 进行 统一 排序 ， 滑 动 窗口 大 小 设置 为 v=3。 从 图 中 可 以 看 出 ， 并 不 是 每 个 窗口 都 会 生成 新 的 候选 匹配 记录 
对 ， 如 窗口 移动 到 a4 ~ a6 这 一 区 间 时 ， 窗 口内 的 记录 全 部 来 自 同一 数据 集 则 不 会 生成 候选 匹配 记录 对 。 
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图 3-5 ”基于 滑动 窗口 的 记录 匹配 原理 


在 基于 排序 的 方法 中 ， 定 义 排序 键 与 定义 分 块 键 时 所 使 用 的 标准 不 同 。 分 块 键 需要 考虑 生成 的 分 块 数量 和 候选 记录 对 质量 之 间 的 平衡 关 
系 ， 而 排序 键 需要 考虑 如 何 使 相似 的 记录 在 排序 键 的 键 值 序列 上 更 加 接近 。 在 排序 键 的 定义 中 ， 面 临 的 一 个 重要 问题 就 是 字符 串 类 型 的 排序 
键 对 于 开始 字符 十 分 敏感 。 例 如 对 于 公司 名 “中 国 建设 银行 ”和 “建设 银行 ”在 排序 键 的 键 值 中 会 具有 较 远 的 距离 ， 从 而 造成 对 应 的 两 条 记 
录 不 会 被 包含 在 同一 个 窗口 内 ， 从 而 丢失 匹配 记录 对 。 解 决 该 问题 的 一 个 方法 是 使 用 多 个 不 同 的 排序 键 执行 多 次 基于 排序 的 分 块 方法 。 


基于 排序 的 分 块 方法 所 生成 的 候选 匹配 记录 对 数量 并 不 依赖 于 排序 键 值 的 频率 分 布 。 假 设 两 个 数据 集 各 包含 有 n 个 记录 ， 滑 动 窗口 大 小 
设置 为 w， 则 在 不 进行 合并 的 情况 下 有 n-w+ 1 个 窗口 位 置 。 在 第 一 个 窗口 生成 的 候选 记录 对 数量 为 w“ 个 ， 后 续 每 个 窗口 增加 新 的 候选 记录 对 
数量 为 2w-1 个 ， 因 此 整体 生成 的 候选 记录 对 数量 c 为 : 


c=w+(n—w)(2w—1) = 2nw — 2w 一 7 (3.3) 


对 于 大 规模 数据 而 言 ，w 远 远 小 于 n， 因 此 这 种 基于 滑动 窗口 的 方法 在 生成 候选 记录 对 上 的 计算 复杂 性 可 以 认为 是 O (n) 。 而 对 于 整体 
算法 而 言 ， 还 需要 加 上 对 记录 基于 排序 键 排序 的 开销 ， 排 序 的 计算 机 复杂 性 为 O(n log n) 。 


2. 改 进 的 基于 排序 分 块 方法 


基于 排序 分 块 方法 主要 在 两 个 问题 的 处 理 上 存在 不 足 : 一 个 是 对 于 排序 键 值 分 布 不 均匀 的 处 理 ， 即 在 大 规模 数据 中 ， 某 个 排序 键 的 键 值 
可 能 对 应 大 量 记录 ， 其 数量 超过 了 滑动 窗口 的 大 小 ; 另 一 个 问题 是 固定 的 滑动 窗口 大 小 可 能 会 丢失 记录 对 的 匹配 。 


针对 同一 排序 键 值 对 应 大 量 记 录 问 题 ， 现 有 工作 提出 了 一 种 基于 倒 排 索引 结构 的 滑动 窗口 方法 由] 。 与 标准 分 块 方法 中 的 倒 排 索引 结构 
类 似 ， 这 里 也 为 数据 记录 创建 一 个 倒 排 索引 结构 ， 其 中 每 个 索引 项 的 键 值 是 排序 键 的 键 值 ， 索 引 项 在 索引 中 按照 键 值 排序 ， 索 引 项 指针 指向 
具有 该 键 值 的 记录 ， 这 样 每 个 排序 键 值 仅 在 索引 中 出 现 一 次 。 固 定 大 小 的 滑动 窗口 每 次 在 索引 上 进行 移动 ， 找 出 新 加 入 匹配 的 排序 键 值 的 索 
引 项 ， 再 沿 索引 项 对 应 的 指针 得 到 对 应 记录 ， 以 生成 候选 匹配 记录 对 。 此 时 ， 生 成 的 候选 记录 对 数量 不 再 仅 由 滑动 窗口 大 小 决定 ， 同 样 也 受 
排序 键 值 在 记录 中 的 频率 分 布 影响 。 


如 果 滑 动 窗口 的 大 小 固定 不 变 ， 则 两 个 匹配 的 记录 在 排序 键 值 相差 较 大 时 会 无 法 划分 到 同一 个 窗口 内 ， 从 而 丢失 这 个 真实 匹配 记录 对 。 


为 此 提出 动态 滑动 窗口 方法 [16] ， 其 中 滑动 窗口 的 大 小 可 以 根据 排序 键 值 之 间 的 近似 比较 相似 性 动态 增加 。 一 个 动态 滑动 窗口 所 容纳 的 排 
序 键 值 序列 中 ， 两 个 相 邻 的 排序 键 值 间 的 相似 度 需要 高 于 一 个 给 定 的 相似 度 阔 值 。 新 的 窗口 则 起 始 于 相似 度 低 于 相似 度 阔 值 的 两 个 排序 键 值 
之 间 的 边界 处 。 


标准 分 块 方法 可 以 看 作 在 排序 键 上 的 一 个 特殊 的 滑动 窗口 方法 [17] ， 其 区 别 是 标准 分 块 方法 中 每 次 不 是 滑动 1 个 位 置 ， 而 是 滑动 整个 窗 
口 的 大 小 ， 即 w 个 位 置 。 因 此 参考 文献 [17] 中 ， 滑 动 窗口 的 大 小 和 窗口 之 间 的 重 又 大 小 都 是 可 以 指定 的 ， 并 通过 实验 证 明基 于 排序 滑动 窗 
口 方法 的 性 能 要 优 于 标准 分 块 方法 。 


3.4.2 ”基于 字符 串 分 割 的 分 块 方法 


标准 分 块 方法 和 基于 排序 的 分 块 方法 对 于 处 理 含有 大 量 错误 或 表述 多 样 性 的 脏 数据 的 性 能 都 不 理想 。 分 块 键 上 键 值 的 简单 拼写 错误 ， 就 
能 够 导致 标准 分 块 方法 将 匹配 的 记录 划分 到 不 同 分 块 中 ， 而 这 个 错误 如 果 发 生 在 排序 键 值 的 起 始 位 置 ， 则 基于 排序 的 方法 也 将 发 生 同 样 的 问 
题 。 因 此 需要 容错 性 较 强 的 方法 来 处 理 脏 数据 上 的 分 块 问题 。 根 据 字 符 串 匹配 的 相似 度 计算 方法 ， 现 有 工作 提出 了 基于 字符 串 分 割 的 分 块 方 
法 ， 其 思想 是 将 原 分 块 键 值 分 解 成 多 个 分 块 键 值 ， 以 便 提 高 两 个 相似 记录 划分 到 同一 分 块 的 概率 。 此 类 分 块 方法 有 基于 q-grams 的 分 块 方法 
和 基于 后 组 队列 的 分 块 方法 。 


1. 基 于 q-grams 的 分 块 方法 


基于 q-grams 的 分 块 方法 【<] 是 将 标准 分 块 方法 中 单一 的 分 块 键 值 转换 为 一 个 q-grams 列 表 ， 其 中 每 个 q-grams 是 原 分 块 键 值 的 一 个 长 
度 为 q 的 子 字符 串 (q-grams 的 划分 方法 见 本 书 第 2 章 ) ，q-grams 列 表 的 子 表 将 生成 一 个 新 的 分 块 键 值 ， 该 记录 将 基于 这 些 新 的 键 值 插入 到 
多 个 分 块 中 ， 以 便 与 相似 的 记录 进行 比较 。 常 用 的 q-grams 方 法 中 ， 将 q 设 置 为 q=2 ( 称 为 bigrams 或 digrams) 或 者 q=3 (FRA 
trigrams) 。 如 果 一 个 字符 串 s 的 长 度 为 c， 则 生成 的 q-grams 数 量 k=c-q+1。 


创建 新 分 块 键 值 的 方法 是 采用 一 种 递归 的 方式 从 转换 后 的 q9-grams 列 表 中 生成 q-grams 子 列表 。 假 设 初始 q-grams 列 表 的 长 度 为 k， 即 
包含 K 个 q-grams， 则 在 递归 的 第 一 步 中 生成 具有 k 个 q-grams 的 子 列表 ， 在 第 二 步 中 生成 包含 k-1 个 q-grams 的 子 列表 ， 此 后 每 一 步 中 q- 
grams 的 数量 相 比 上 一 步 减 少 1 个 ， 直 到 子 列表 中 q-grams 的 数量 达到 一 个 最 小 值 |，| 的 值 由 一 个 最 小 立 值 t 决 定 。 对 于 一 个 有 Kk 个 q-grams 的 
分 块 键 值 ， 在 子 列表 阅 值 设置 为 {时 ， 子 列表 最 小 长 度 限制 | 为 : 


[= max(1.L k.t) (3.4) 


接 下 来 ， 按 照 子 列表 中 q-grams 在 原始 分 块 键 值 中 顺序 拼接 为 字符 串 ， 这 样 ， 原 始 分 块 键 值 就 转换 为 了 多 个 分 块 键 值 ， 在 分 块 时 依然 使 
用 基于 倒 排 索引 的 方法 构建 记录 分 块 ， 每 个 记录 与 其 q-grams 生 成 的 多 个 分 块 键 值 划分 到 多 个 分 块 中 。 








表 3-1 展 示 了 一 个 q-grams 分 块 方法 生成 分 块 键 值 的 样 例 ， 其 中 包含 打印 机 品牌 “canon” 和 因 输 入 错误 而 写成 “conon” 的 两 个 记录 。 
两 个 记录 在 “noon” 这 个 分 块 键 值 上 会 被 划分 到 同一 个 分 块 中 。 因 此 ， 基 于 q-grams 的 分 块 方法 具有 更 好 的 容错 性 ， 能 够 提高 分 块 算法 在 匹 
配 记录 对 上 的 召回 率 。 


表 3-1 gq-gtrams 分 块 方法 样 例 

















ees Bigram 子 列表 生成 分 块 键 值 

[cas an, no, on], Lan, no, *caannoon’, “ annoon ’ 
R l no, on], [ca, an, on], [ca, no |, | ‘canoon’, ‘caanon’, “caan- 
one [no, on], Lan, on], Lan, no], [ca, or no’, ‘noon’, ‘anon’, “an- 
[ca, no], [ca, an] no’, ‘caon’, ‘cano’, ‘caan’ 

|, [on, no, on], [co, *“coonnoon’, “ onnoon ’ 
R? scan > on |, Lco, on, no J » | ‘conoon’, *coonon’, “coon- 
|, [on, no], [co, on], | no’, ‘noon’, ‘onon’, “on- 

no’, ‘coon’, “cono’, ‘coon’ 














从 表 3-1 中 也 可 以 看 到 ， 基 于 q-grams 的 分 块 方法 的 主要 缺点 就 是 会 生成 太 多 的 新 分 块 键 值 ， 这 样 一 个 记录 就 会 被 插入 到 大 量 的 分 块 之 
中 。 这 一 点 对 于 具有 较 长 字符 串 的 分 块 键 值 和 较 低 阔 值 的 情况 表现 得 尤其 突出 ， 会 导致 较 高 的 分 块 代价 。 因 此 基于 q-grams 的 分 块 方法 并 不 
适合 于 具有 长 文本 属性 的 大 规模 数据 上 的 实体 识别 分 块 处 理 。 

文献 [19] 提出 了 一 种 降低 基于 q-grams 的 分 块 方法 计算 代价 的 方法 。 该 方法 在 生成 q-grams 列 表 的 同时 记录 每 个 q-grams 的 位 置 ， 基 
于 q-grams 的 相关 位 置信 息 设 定 了 三 个 准则 ， 并 基于 这 三 个 准则 对 候选 记录 对 进行 过 滤 : 第 一 个 准则 是 q-grams 计 数 过 滤 ， 即 要 求 进行 比较 
的 记录 对 共同 包含 的 q-grams 数 量 要 满足 一 个 最 小 值 ， 第 二 个 准则 是 位 置 过滤 ， 即 共同 包含 的 q-grams 在 各 自 列表 中 的 位 置 不 能 相差 太 大 ; 

三 个 准则 是 长 度 过 滤 ， 即 进行 比较 的 两 个 记录 长 度 相差 不 能 大 于 一 个 立 值 。 这 样 通过 对 候选 匹配 记录 对 的 过 滤 ， 能 够 有 效 降 低 q-grams 分 

块 方法 所 生成 的 候选 匹配 记录 对 的 数量 。 


2. 基 于 后 缀 队列 的 分 块 方法 


基于 后 缀 队列 的 分 块 (Suffix-Array Based Blocking) 方法 是 另 一 种 基于 字符 串 分 割 的 分 块 方法 。 该 方法 的 思想 与 基于 q-grams 的 分 块 
方法 相似 ， 也 是 将 原始 分 块 键 值 转换 为 多 个 新 的 分 块 键 值 ， 再 根据 新 的 分 块 键 值 将 记录 插入 到 对 应 分 块 中 。 与 基于 q-grams 的 分 块 方法 的 主 
要 区 别 在 于 ， 基 于 后 缀 队列 的 分 块 方法 使 用 字符 串 的 后 缀 作为 转换 后 的 分 块 键 值 ， 例 如 “canon” 的 后 缀 包括 “anon”、“non”、 

“on” 和 “n”。 可 以 很 明显 地 看 出 ， 后 缀 的 长 度 越 短 ， 其 对 应 的 分 块 键 值 所 包含 的 记录 数量 就 会 越 大 ， 例 如 后 级 “n” 所 对 应 的 键 值 分 块 中 
可 能 会 包含 大 量 的 记录 ， 而 这 些 记录 之 间 的 相似 性 并 不 高 。 为 了 避免 生成 过 多 的 候选 记录 对 ， 基 于 后 缀 队列 的 分 块 方法 设置 了 以 下 两 个 参数 
来 对 生成 的 分 块 进行 约束 。 

1) 后 缀 最 小 长 度 |min。 该 参数 对 生成 的 后 绎 字符 串 的 最 小 长 度 进行 了 约束 ， 在 Imin=3 时 ，“canon” 的 后 缀 只 包 
含 “anon” 和 “non”。 这 样 ， 一 个 长 度 为 的 分 块 键 值 生成 后 缀 字符 串 数 量 为 k= (C-lmint1) ， 对 应 的 记录 会 被 插入 到 k 个 分 块 中 。 

2) 分 块 大 小 的 最 大 值 bmax。 为 了 防止 某 个 后 缀 值 作为 分 块 键 值 时 而 导致 的 分 块 中 包含 过 多 的 记录 ， 在 所 有 记录 都 被 基于 后 缀 队列 插入 
到 各 个 分 块 后 ， 所 有 包含 记录 数量 超过 bmax 的 分 块 都 会 被 删除 。 在 被 删除 的 大 分 块 中 可 能 存在 仅 被 插入 到 了 该 分 块 中 的 记录 ， 这 样 该 分 块 被 
删除 的 同时 这 个 记录 就 无 法 与 其 他 记录 进行 比较 了 。 对 于 这 种 情况 可 以 采用 删除 分 块 中 记录 的 方式 解决 ， 被 删除 的 记录 通常 是 原始 分 块 键 值 
最 长 的 记录 ， 因 为 这 些 记 录 的 其 他 后 缀 一 定 导致 它们 被 插入 到 了 其 他 分 块 之 中 。 

表 3-2 中 包含 了 4 个 记录 的 后 缀 队列 的 分 块 情况 ， 其 中 设 定 Imin=2，bmax=3。 在 生成 的 分 块 中 ， 分 块 键 值 “on” 对 应 的 分 块 将 被 删除 ， 
而 能 够 进行 记录 比较 的 只 有 包含 r1 和 r2 记 录 的 “non” 对 应 的 分 块 。 


表 3-2 基于 后 级 队列 的 分 块 方法 样 例 


记录 MAR 分 块 结果 
ID 键 值 Ki (Dmax =3) 





rl canon | canon, anon, non, on 
anon= {rl}, anvon= {r4}, canon = 





= \ peat \ 
r2 conon conon, onon, non, on {rl}, conon= {r2}, hanvon = {r4}, 


non= (rl, r2}, nvon= {r4}, on=(rl, 


r3 epson | epson, pson, son, on r2, r3, r4}, onon={r2}, pson= {r3}, 
\ 
f 


SOPE fp A i = | 
son= {r3}, von= {r4} 
r4 hanvon | hanvon, anvon, nvon, von, on vayg i 











下 面 我 们 来 估算 一 下 基于 后 缀 队列 的 分 块 方法 生成 的 候选 记录 对 数量 。 假 设 每 个 分 块 中 包含 的 记录 数量 都 达到 了 上 限 值 bmax， 在 生成 了 
b 个 分 块 的 情况 下 ， 对 于 两 个 数据 集合 间 的 记录 链接 任务 ， 生 成 的 候选 记录 对 上 限 数量 为 : 


n = b » b ERs 


而 对 于 单数 据 集合 的 消除 重复 任务 ， 生 成 的 候选 记录 对 上 限 数量 为 : 


n 一 D。(D (Dmax — 1))/2 (3.6) 


基于 后 缀 队列 的 分 块 的 缺点 与 基于 排序 的 分 块 方法 十 分 相似 ， 即 一 旦 错误 发 生 在 字符 串 的 尾部 处 ， 极 其 容易 造成 两 个 记录 丢失 匹配 ， 
为 生成 的 几乎 所 有 后 缀 都 不 相同 ， 因 此 也 不 会 出 现在 同一 个 桶 当中 。 这 个 问题 的 一 种 解决 方法 是 使 用 q-grams 方 法 在 分 块 键 值 的 字符 串 上 生 
成 所 有 长 度 大 于 lmin 的 子 字符 串 ， 并 将 这 些 字符 串 作为 分 块 键 值 。 这 种 方法 虽然 能 够 避免 匹配 记录 对 遗漏 的 问题 ， 但 潜在 的 计算 量 却 十 分 庞 
大 。 


3.4.3 ”基于 MinHash 的 分 块 方法 


在 实体 识别 算法 中 ，Jaccard 距 离 是 一 种 应 用 非常 广泛 的 相似 性 度量 方式 ， 很 多 记录 之 间 比 较 的 相似 性 算法 都 是 基于 多 个 分 块 键 值 的 

Jaccard 距 离 定义 的 。 对 于 大 数据 上 的 实体 识别 任务 ， 如 果 其 中 记录 的 匹配 是 基于 Jaccard 距 离 定义 的 ， 则 可 以 采用 一 种 基于 MinHash 的 方 
法 [13] 对 大 规模 数据 记录 快速 估算 相似 度 。MinHash 方 法 本 身 也 可 以 用 于 大 规模 文档 聚 类 问题 。 下 面 首 先 对 MinHash 方 法 的 原理 进行 说 
明 。 


1.MinHash 方 法 原理 


MinHash 方 法 是 基于 Jaccard 距 离 而 提出 的 ， 属 于 局 部 敏感 散 列 (LSH) 方法 的 一 种 ， 用 于 快速 估算 两 个 集合 的 相似 性 。 
此 ，MinHash 方 法 适用 于 以 下 几 种 情况 下 的 实体 识别 任务 : 


1) 实体 识别 的 记录 属性 值 可 以 转换 为 token 集 合 的 形式 进行 相似 性 比较 ， 通 常 是 对 长 文本 进行 分 词 ， 如 图 3-1 中 “Canon-MF212w 
Wireless Black-and-White Laser Printer-Black” 可 以 转换 为 token 集 合 
{ “Canon” , “MF212w" , “Wireless” , “Black” , “and” , “White” , “Laser” } 。 


2) 分 块 键 的 比较 中 ， 属 性 值 可 使 用 q-grams 转 换 为 token 集 合 进行 相似 性 比较 ， 例 如 “Canon” 的 2-grams 集 合 大 


{ "ca" , "an" , “no”, “on” }。 


3) 基于 多 个 分 块 键 上 的 Jaccard 距 离 计算 记 录 的 相似 性 。 总 之 ， 实 体 匹 配 是 基于 Jaccard 距 离 计 算 的 ， 且 其 中 集合 元 素 的 匹配 是 基于 等 
值 比较 的 实体 识别 任务 ， 就 可 以 使 用 MinHash 方 法 进行 分 块 优化 。 


MinHash 方 法 的 基本 思想 是 : 假设 F 是 记录 X 上 的 一 组 特征 集合 ，h (x) 是 一 个 能 够 把 元 素 x 映 射 成 整数 的 散 列 函数 ，minh (F) 为 特征 
集合 F 中 的 元 素 经 过 h (x) 散 列 后 ， 具 有 最 小 散 列 值 的 元 素 。 对 于 两 个 记录 的 特征 集合 A 和 B，minh (A) =minh (B) 成 立 的 条 件 是 AUB 的 
元 素 中 具有 最 小 散 列 值 的 元 素 也 在 ANB 中 。 因 此 ， 可 以 证 明 出 两 个 集合 最 小 散 列 值 相等 的 概率 等 于 集合 A 和 B 的 Jaccard 相 似 度 ， 即 
Pr (minh (A) =minh (B) ) =Jaccard (A, B) =|AnBlM/IAUB|。 


使 用 MinHash 方 法 计算 集合 间 相似 性 有 以 下 几 种 方法 。 


1) 使 用 多 个 散 列 函数 。 首 先 选 定 k 个 散 列 函数 ， 再 用 k 个 散 列 函数 分 别 计算 特征 集合 A 和 B 上 的 具有 最 小 散 列 值 的 元 素 ， 假 设 得 到 
kMin (A) ={a1, .... ad 和 KMin (B) ={b1，.…，bk}， 则 特征 集合 A 和 B 的 相似 度 可 以 使 
用 |kMin (A) nkMin (B) |/|kMin (A) UkMin (B) | 进行 估算 。 


2) 使 用 单个 散 列 图 数 。 使 用 多 个 散 列 函数 的 方法 具有 计算 复杂 度 高 的 缺点 ， 为 此 可 以 使 用 单个 散 列 函数 的 方法 进行 简化 。 一 种 简单 的 
方法 是 选取 前 k 个 最 小 散 列 值 的 元 素 作 为 特征 集合 A 和 B 的 元 素 散 列 值 集 合 ， 并 计算 相似 度 。 


MinHash 方 法 的 性 能 优势 主要 体现 在 对 于 大 规模 记录 匹配 的 处 理 。 假 设 有 n 个 记录 ， 需 要 进行 匹配 的 维度 为 m， 如 果 选 取 的 散 列 函数 或 
选取 最 小 散 列 值 的 数量 为 k， 则 需要 进行 实际 匹配 的 矩阵 为 nk， 而 原始 的 匹配 矩 阵 为 nm， 因 此 在 n 远 大 于 m 时 可 以 降低 计算 的 代价 。 


2. 基 于 MinHash 的 记录 分 块 
基于 MinHash 方 法 可 以 实现 对 海量 数据 记录 进行 匹配 的 分 块 处 理 ， 在 海量 数据 上 生成 能 够 进行 实体 匹配 相似 性 计算 的 候选 集 。 


在 基于 MinHash 的 分 块 方法 中 ， 使 用 对 集合 中 元 素 向 量 的 随机 排序 来 代替 用 散 列 函数 来 计算 每 个 元 素 的 散 列 值 。 假 设 r 是 记录 X 的 特征 
集合 F 上 元 素 的 一 个 随机 排序 ， 这 个 随机 排序 可 由 一 个 随机 散 列 函数 生成 ， 则 minh (F) 为 特征 集合 F 在 r 上 的 最 小 元 素 。 下 面 我 们 通过 一 个 
例子 来 看 一 下 MinHash 值 是 如 何 生成 的 。 


假设 ， 我 们 将 图 3-1 中 Bestbuy 中 的 部 分 打印 机 描述 信息 转 为 token 集 合 如 下 : P1={“HP”，“ENVY5560”}，P2= 
{“Epson”，“WF2760"”}，P3={“HP”，“M277dw”}，P4={“Canon”，“MF212w”}。 其 中 的 token 可 以 转换 为 特征 集合 
{ “HP”，“ENVY5560”，“Epson”，“WF2760”，“M277dw”，“Canon”，“MF212w”}， 则 生成 的 特征 和 矩 阵 如 图 3-6a 所 示 。 
如 果 对 该 集合 执行 一 次 MinHash， 通 过 随机 排序 生成 的 特征 元 素 行 排列 顺序 为 e66 <e7 < e1 < e4 < e5 < e3 < e2， 如 图 3-6b 所 示 ， 则 
minh (P1) =e1, minh (P2) =e4, minh (P3) =e1, minh (P4) =e6。 其 中 P1 和 P3 在 这 次 MinHash 执 行 中 具有 相同 的 值 ， 会 被 划分 
到 同一 个 桶 当中 。 


mæ fifo 
js 


o 

Epson [o | 1 | 0 | 

je4 | we2760 | 0 | 1 fo 

es | M277aw | 0 [ofi 

e| Canon |o [o |o [1 | 

e1 | mr2izw |o [o |o | 1 | 
a) 





es] Epon [0 | 1 fofo] 
e [envyssoo] 1 |o |o |o] 
b) 


图 3-6 ”基于 随机 排序 的 MinHash 计 算 


然而 ， 仪 执行 一 次 MinHash 就 决定 记录 的 分 块 ， 显 然 执 行 结果 是 不 可 靠 的 ， 这 样 会 丢失 大 量 的 匹配 记录 对 。 为 此 ， 需 要 在 和 矩阵 中 多 次 执 
行 对 行 的 随机 排序 ， 生 成 多 个 行 排列 来 计算 出 多 个 MinHash 值 。 如 果 仅 计算 记录 间 的 相似 度 ， 那 么 此 时 使 用 得 到 的 多 个 MinHash 值 就 可 以 计 
算 记 录 间 的 Jaccard 相 似 度 了 。 


接 下 来 要 处 理 的 问题 是 如 何 设计 分 块 模式 ， 以 便 将 Jaccard 相 似 度 大 于 给 定 阔 值 s 的 记录 对 划分 到 同一 个 分 块 中 。 为 此 ， 基 于 MinHash 的 
分 块 方法 采用 执行 rk 次 随机 排序 计算 各 记录 的 MinHash 值 以 组 成 记录 的 签名 (Signature) ， 其 中 每 [次 随机 排序 的 MinHash 值 构成 一 个 分 
组 (Band) ， 共 k 个 分 组 ， 如 图 3-7 所 示 。 在 进行 分 块 时 ， 两 个 记录 只 要 在 k 个 分 组 中 的 一 组 中 具有 相同 的 MinHash 值 ， 就 会 被 划分 到 相同 的 
分 块 中 。 


r? 钦 MinHash 值 


/一 一 一 一 ~ 
Signature) = L | | | e | 
S E» 
天 组 MinHash 值 


图 3-7 基于 MinHash 的 记录 签名 


基于 MinHash 的 分 块 方法 并 不 能 保证 发 现 全 部 的 匹配 记录 对 ， 这 种 方法 在 分 块 后 产生 假 阴 性 (False Negatives) 的 概率 〈 即 未 识别 出 
匹配 记录 对 的 概率 ) 与 记录 间 的 Jaccard 相 似 度 值 相关 。Jaccard 相 似 度 值 为 的 两 个 记录 未 被 划分 到 同一 个 分 块 中 的 概率 PFN 为 : 


Pre — (1 — s")k (3. £2 


这 样 ， 具 有 较 高 Jaccard 相 似 性 的 两 个 记录 未 被 划分 到 同一 个 分 块 中 的 概率 值 很 低 。 例 如 ， 假 设 我 们 取 r=5 和 k=20， 则 相似 性 为 0.9 的 两 
个 记录 未 被 放 入 任何 一 个 分 块 中 的 概率 是 1.75x10-8， 而 相似 性 为 0.2 的 两 个 记录 未 被 放 入 任何 一 个 分 块 中 的 概率 大 约 是 0.99。 


344 基于 Canopy 聚 类 的 分 块 方法 


基于 Canopy 聚 类 的 分 块 【18, 20] (canopy clustering) 方法 是 将 记录 的 分 块 看 作对 记录 的 聚 类 任务 ， 尽 可 能 将 相似 的 记录 放 入 同一 个 
聚 类 之 中 。 然 而 ， 对 于 数据 分 块 方法 而 言 ， 要 求 其 执行 代价 必须 尽 可 能 小 ， 以 便 能 够 在 很 大 规模 的 数据 上 运行 。 为 此 ， 基 于 Canopy 聚 类 的 
分 块 方法 通过 高 效 的 相似 性 计算 方法 将 记录 划分 到 一 个 或 多 个 聚 类 之 中 。 


1.Canopy 聚 类 分 块 方法 原理 


基于 Canopy 聚 类 的 分 块 方法 适用 于 分 块 键 值 间 的 相似 度 是 基于 token 的 Jaccard 距 离 或 余弦 距离 计算 的 ， 其 中 的 token 可 以 是 从 分 块 键 
值 中 转换 得 到 的 单词 或 q9-grams。 基 于 聚 类 的 分 块 方法 需要 首先 对 记录 的 分 块 键 值 进行 预 处 理 。 先 将 字符 串 类 型 的 分 块 键 值 转换 为 token 集 
合 以 生成 新 的 分 块 键 值 ， 再 基于 这 些 新 的 分 块 键 值 构 建 倒 排 索引 ， 索 引 中 每 个 索引 项 的 键 为 分 块 键 值 ， 索 引 项 指针 指向 一 个 该 分 块 键 值 对 应 
的 记录 列表 。 与 标准 分 块 方法 中 倒 排 索引 不 同 ， 基 于 Canopy 聚 类 分 块 的 倒 排 索引 是 为 了 降低 聚 类 的 计算 复杂 性 ， 而 不 是 用 于 生成 记录 分 块 
的 ， 因 此 在 倒 排 索引 的 结构 中 增加 了 一 些 统计 值 。 一 个 统计 值 是 “文档 频 度 ” (Document Frequency) ， 这 个 值 记录 一 个 token 在 给 定 记 
录 中 出 现 的 频率 。 另 一 个 统计 值 是 “词汇 频 度 ” (Term Frequency) ， 这 个 值 记录 在 每 个 索引 项 上 ， 标 识 该 键 值 对 应 了 多 少 个 记录 。 表 3-3 
为 一 组 打印 机 摘 述 数据 记录 ， 其 中 通过 分 词 将 文本 转换 为 token 集 合并 统计 了 文档 频 度 ， 图 3-8 为 这 组 记录 生成 的 倒 排 索引 结构 ， 其 
中 “HP” 在 两 个 记录 中 出 现 ，“wireless” 在 4 个 记录 中 出 现 。 索 引 中 索引 项 t 的 “词汇 频 度 ”可 以 直接 转换 为 “ 逆 文 档 频 度 ” (Inverse 
Document Frequency, IDF) , idf=n/tf (t) ， 其 中 m 为 数据 集合 记录 数量 。 


表 3-3 聚 类 分 块 方法 样 例 数 据 











记录 ID 分 块 键 值 (打印 机 描述 ) token 列表 
rl HP ENV Y5660 Wireless (CHP, 1), (ENVY5660, 1), (Wireless, 1) | 
z Epson Work Force WF2760 [( Epson, 1), ( Work, 1), (Force, 1), 
ie Wireless (WF2760, 1), (Wireless, 1) | 
X HP LaserJet Pro M277dw [ (HP, 1), (LaserJet, 1), (Pro, 1), (M277dw, 
Wireless 1), (Wireless, 1) | 
r4 Canon MF212w Wireless [ (Canon, 1), (MF212w, 1), (Wireless, 1)] 
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图 3-8 聚 类 分 块 方法 的 倒 排 索引 


基于 Canopy 聚 类 的 分 块 方法 生成 的 是 重 老 聚 类 ， 即 一 个 记录 可 以 被 划分 到 多 个 类 艇 中 。 假 设 给 定数 据 集合 R， 两 个 相似 度 阔 值 t 和 tt， 利 
用 倒 排 索引 结构 的 Canopy 聚 类 分 块 算法 执行 步骤 如 下 : 


1) 随机 从 数据 集合 R 中 选择 一 个 记录 rc， 并 以 该 记录 作为 一 个 新 类 艇 的 中 心 Ci= {rc} 。 


2) 基于 记录 rc 的 token， 利 用 索引 找到 数据 集合 R 中 所 有 与 rc 具有 公共 token 的 记录 rx， 并 使 用 Jaccard 算 法 或 TF-1DF 余 弦 算 法 计算 记录 


rc 与 rx 之 间 的 相似 度 sim (rc，rx) 。 
3) 对 于 每 个 rx， 如 果 其 与 rc 的 相似 度 Sim (ro ty) 大 于 阅 值 tl， 则 将 rx 插入 到 Ci 中 。 
4) 对 于 每 个 rxE Ci， 如 果 其 与 rc 的 相似 度 Sim (ro y) 大 于 阅 值 tt， 则 将 rx 从 R 中 移 除 ， 同 时 将 rc 从 R 中 移 除 。 


5) 重复 执行 以 上 步骤 直到 R= 时 停止 。 


其 中 ， 相 似 度 阅 值 t 二 0tt 是 两 个 关键 的 参数 ， 其 中 tl 是 松弛 阅 值 ，tt 是 紧缩 六 值 ， 这 里 要 求 tl<tt。 如 果 有 tl=tt， 则 Canopy 聚 类 的 结果 中 各 
个 类 簇 间 将 没有 重重 ， 即 每 个 记录 只 会 被 插入 到 一 个 类 簇 中 。 而 如 果 tl=tt=1， 则 基于 Canopy 聚 类 的 分 块 将 等 同 于 标准 分 块 算法 的 结果 。 在 
Canopy 聚 类 算法 执行 结束 后 ， 所 得 到 的 每 个 类 艇 C 将 被 作为 一 个 记录 分 块 ， 分 块 内 的 记录 将 两 两 组 合生 成 候选 记录 对 .。 


2.Canopy 聚 类 分 块 方法 的 两 种 策略 对 比 


上 面 介绍 的 基于 Canopy 聚 类 的 分 块 方法 采用 相似 度 立 值 tOtt 实 现 对 类 艇 的 划分 ， 其 缺点 在 于 难以 控制 分 块 的 大 小 和 生成 的 候选 记录 
对 。 由 于 在 算法 执行 时 影响 分 块 结果 的 因素 主要 包括 分 块 键 值 的 分 布 、 相 似 度 遂 数 以 及 两 个 相似 度 阔 值 t 折 tt， 这 些 因 素 共同 决定 了 分 块 中 所 
生成 聚 类 的 大 小 。 如 果 松弛 闪 值 过 小 且 紧 缩 阐 值 过 大 将 可 能 造成 较 多 的 候选 记录 对 ， 而 分 块 键 值 的 分 布 也 会 影响 聚 类 的 结果 。 因 此 在 执行 算 
法 之 前 很 难 对 所 生成 类 簇 的 大 小 进行 估计 。 

为 此 ， 另 一 种 基于 Canopy 聚 类 的 分 块 方法 使 用 最 近邻 居 方 法 实现 类 复 的 划分 。 具 体 的 方式 是 ， 在 算法 中 不 使 用 松弛 阔 值 t 和 紧缩 阔 值 
tt 对 放 入 类 簇 的 记录 进行 判定 ， 而 是 设 定 两 个 最 近邻 居 参 数 n| 和 nt， 其 中 nt<nl。 在 算法 中 ， 对 于 一 个 新 类 簇 的 中 心 结 点 re， 选取 距离 rc 点 最 
近 的 n| 个 结 点 放 入 类 艇 Ci 中 ， 同 时 将 与 rd 间距 离 最 近 的 nt 个 点 从 数据 集合 R 中 移 除 。 这 样 每 个 聚 类 的 大 小 被 限制 为 nj+1 个 记录 ， 也 就 同时 限制 
了 候选 记录 对 的 生成 数量 。 然 而 ， 该 方法 由 于 限制 了 聚 类 的 大 小 ， 对 于 分 块 键 值 分 布 不 平均 的 数据 集合 ， 有 些 类 艇 会 因 最 近邻 居 参 数 的 限制 
而 将 本 身 也 属于 匹配 的 记录 隔离 在 外 ， 这 样 将 直接 导致 结果 中 丢失 那些 真实 匹配 的 记录 对 。 

相关 的 实验 证 明基 于 相似 度 阔 值 的 Canopy 聚 类 分 块 方法 性 能 要 优 于 基于 最 近邻 居 的 Canopy 聚 类 的 分 块 方法 ， 尤 其 是 在 大 规模 数据 集合 
上 的 消除 重复 任务 上 。 


3.4.5 ”基于 前 缀 过 滤 的 分 块 方法 


对 于 使 用 Jaccard 相 似 度 识别 记录 间 匹 配 关系 的 情况 ， 还 可 以 使 用 基于 前 缀 过 滤 的 分 块 方法 [1 2] 。 该 方法 能 够 根据 给 定 的 相似 度 冰 值 有 
效 地 过 滤 候 选 记录 对 。 


1. 基 于 前 缀 过 滤 分 块 方法 的 原理 


基于 前 缀 过 滤 的 分 块 方法 与 前 文 介 绍 的 基于 MinHash 的 分 块 方法 和 基于 Canopy 聚 类 的 分 块 方法 类 似 ， 都 是 面向 使 用 Jaccard 相 似 度 而 设 
计 的 分 块 方法 。 该 方法 对 数据 记录 的 分 块 是 基于 一 个 给 定 的 Jaccard 相 似 度 阔 值 而 执行 的 ， 两 个 记录 只 有 在 分 块 键 的 键 值 上 Jaccard 相 似 度 大 
于 给 定 阔 值 ， 才 保证 生成 两 个 记录 的 候选 记录 对 。 因 此 ， 基 于 前 缀 过 滤 的 分 块 方法 首先 会 将 记录 的 初始 分 块 键 值 转换 为 token 集 合 或 q- 
grams 集 合 ， 以 便 能 够 计算 Jaccard 相 似 度 。 


基于 前 绎 过 渡 的 分 块 方法 的 原理 是 利用 了 Jaccard 相 似 度 和 重 区 相似 度 (Overlap Similarity) 之 间 的 转换 关系 。 我 们 知道 ， 两 个 集合 间 
Jaccard 相 似 度 的 定义 为 】(x，y) =|xnyl/lxUy|， 而 重要 相似 度 则 定义 为 0 (x，y) =|xny|。 对 于 给 定 Jaccard 相 似 度 阔 值 t ( 即 两 个 刍 值 相似 
度 大 于 t 就 认为 匹配 ) ， 有 如 下 转换 公式 : 





T(asy) 宇 1OO(r,y) >a zx| 十 |y|) (3. 8) 


EE 
{43 


因此 ， 对 于 给 定 记录 x 和 相似 度 阔 值 [， 则 记录 y 如 果 与 x 匹 配 ， 至 少 要 与 记录 x 之 间 具 有 “|” 个 相同 的 token。 因 此 ， 如 果 两 个 
记录 相似 度 大 于 立信 t， 则 它们 在 一 个 特定 长 度 的 前 绎 内 必然 存在 相同 的 token。 如 果 将 记录 包含 的 每 个 token 都 作为 分 块 键 值 将 记录 插入 到 
一 个 分 块 中 ， 则 该 方法 与 标准 分 块 方法 相同 。 这 样 会 导致 各 个 分 块 中 的 记录 数量 增加 ， 从 而 增加 候选 记录 对 的 数量 ， 不 会 提高 分 块 的 效率 。 
为 此 ， 需 要 尽 可 能 地 减少 每 个 记录 作为 分 块 键 值 的 token 数 量 ， 从 而 在 不 丢失 匹配 记录 对 的 前 提 下 将 记录 插入 到 尽 可 能 少 的 分 块 中 。 我 们 知 
道 ， 对 于 两 个 记录 只 要 它们 在 一 个 分 块 中 同时 出 现 ， 就 会 被 作为 候选 记录 对 执行 比较 。 因 此 ， 如 果 两 个 记录 相似 度 符合 赣 值 约束 ， 通 过 覆盖 
相似 度 可 知 我 们 可 以 为 每 个 记录 选取 一 个 最 小 的 token 子 集 ， 使 这 个 子 集中 至 少 包含 一 个 公共 token。 该 性 质 可 以 形式 化 描述 为 定理 
3.1 [15] 。 


定理 3.1 (HAIRAN) 对 于 一 组 记录 ， 在 其 所 包含 的 所 有 token 上 有 一 个 全 局 排序 DO， 每 个 记录 中 的 token 均 基于 〇 进行 排序 。 如 果 


O (x, y) > 兰 x， 则 记录 x 的 前 〈|xl-x+1) 个 token 和 记录 y 的 前 (|y|-x+1) 个 token 之 间 至 少 具有 一 个 相同 的 token。 


这 样 ， 我 们 只 需要 基于 记录 的 一 部 分 token 作 为 分 块 键 值 ， 将 记录 插入 到 对 应 分 块 中 即 可 。 这 里 需要 处 理 的 一 个 问题 是 每 个 记录 在 与 其 
他 记录 匹配 之 前 就 需要 确定 分 块 ， 而 其 前 级 的 长 度 需要 根据 与 其 比较 的 记录 的 长 度 来 决定 。 对 于 这 一 问题 的 处 理 方法 是 对 于 记录 x 使 用 可 能 
到 的 最 长 的 前 绎 作为 其 分 块 键 值 集合 ， 即 前 17| Tie lell 1) 个 token。 这 是 因为 可 以 证 明 : 对 于 记录 x， 如 果 在 其 前 

delfe [e 1 二 1) 个 token 中 记录 沪 册 有 任何 一 个 token 相 同 ， 则 记录 x 和 记录 y 间 的 Jaccard 相 似 度 必然 低 于 阅 什 t， 


manyl) e loll | 个 前 缀 token 作 为 每 个 记录 的 分 块 键 值 之 后 ， 就 可 以 执行 分 块 操作 了 。 基 于 前 缀 过 渡 的 分 块 方法 同样 使 用 
倒 排 索引 来 作为 生成 分 块 的 数据 结构 ， 对 应 算法 的 执行 步骤 如 下 。 


1) 为 分 块 键 值 创建 倒 排 索引 。 对 于 数据 集合 中 每 个 记录 x 的 |x-| e 工 | | +1 个 前 缀 token， 创 建 倒 排 索引 索引 项 ， 并 将 记录 加 入 到 相 
应 索引 项 中 。 





2) 生成 候选 记录 对 。 倒 排 索引 中 每 个 索引 项 作为 一 个 数据 分 块 ， 分 块 内 的 记录 两 两 组 合 形成 候选 记录 对 。 尽 管 两 个 记录 可 能 会 在 多 个 
分 块 中 生成 候选 记录 对 ， 但 匹配 操作 依然 仅 会 被 执行 一 次 。 


下 面 我 们 以 图 3-1 中 的 数据 为 例 ， 选 取 表 3-4 中 三 个 记录 对 基于 前 缀 匹配 的 分 块 算法 进行 说明 ， 取 相似 度 阔 值 t= 0.6。 首 先 对 三 个 记录 的 
分 块 键 值 转换 为 token 并 基于 字符 的 字典 序 对 token 进 行 排 序 ， 执 行 结果 如 图 3-9 所 示 。 其 中 基于 前 缀 长 度 的 计算 公式 ， 三 个 记录 的 前 织 长 度 
分 别 为 |p (W3) |=4, |p (B2) |=4, |p (B4) |=4， 对 应 的 前 缀 分 别 为 p (W3) ={"canon", "copier", "laser", "MF212w"}, p (B2) = 
{"all-in-one", "epson", "force", "printer"}, p (B4) ={"black", "canon", "MF212w",，"laser"}。 基 于 这 些 前 缀 构建 分 块 键 值 的 倒 排 
索引 ， 从 图 3-9 中 可 以 看 到 ，W3 和 B4 两 个 记录 在 三 个 索引 项 中 同时 出 现 ， 因 此 将 生成 候选 记录 对 (W3，B4) ， 其 Jaccard 相 似 度 为 
J (W3, B4) =0.68。 而 另外 两 个 记录 对 (W3, B2) 和 (B2, B4) 的 Jaccard 相 似 度 分 别 为 | (W3，B2) =0.1770) (B2, B4) =0.18, 
此 在 分 块 中 被 过 滤 。 


表 3-4 记录 的 打印 机 描述 分 块 键 





ID 打印 机 描述 
W3 Canon MF212w Wireless Laser Printer /Copier /Scanner 





B2 Epson Work Force WF2760 Wireless All-In-One Printer 





B4 Canon MF212w Wireless Laser Printer Black 





相似 度 国 值 :=0.6 


BAlin-One| Epson | Force | Printer | WF2760 | Wireless| Work _ 
[BA] Black | Canon |MF212w| Laser | Printer | Wireless 
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图 3-9 ”基于 前 组 过 滤 的 倒 排 索引 及 分 块 


基于 前 缀 过 滤 的 分 块 方法 是 利用 集合 覆盖 相似 度 只 比较 一 个 前 缀 长 度 的 token 集 合 ， 可 以 将 不 满足 相似 度 阔 值 的 记录 对 尽 可 能 地 过 滤 
掉 ， 从 而 提高 记录 分 块 的 性 能 。 


2. 基 于 前 缀 过 滤 分 块 方法 的 改进 


基于 前 缀 过 渡 分 块 方法 的 缺点 是 ， 在 相似 度 立 值 设置 较 低 且 记录 的 原始 分 块 键 值 包含 token 较 多 时 ， 依 然 会 生成 大 量 的 候选 记录 对 。 同 
时 一 些 高 频 词 的 存在 也 会 使 在 这 些 高 频 词 上 的 分 块 包含 过 多 的 记录 ， 从 而 生成 大 量 候选 记录 对 。 为 此 ， 提 出 两 种 基于 前 缀 过 滤 的 分 块 方法 的 
改进 方法 : 一 个 是 减少 前 级 所 生成 倒 排 索引 中 每 个 索引 项 的 列表 中 记录 数量 ， 另 一 个 是 继续 对 分 块 中 的 候选 记录 对 进行 过 滤 。 


要 减少 由 倒 排 索引 所 生成 记录 分 块 中 的 记录 数量 ， 可 以 采用 基于 token 频 率 排序 的 方法 。 该 方法 的 步骤 如 下 : 


1) 对 所 有 记录 原始 分 块 键 值 中 token 集 合 进行 词 频 统计 和 排序 ， 所 有 token 按 照 在 全 部 记录 中 出 现 的 频率 分 布 由 低 到 高 排序 ， 得 到 全 局 
排序 Of。 


2) 所 有 记录 分 块 键 值 中 的 token 按 照 Of 进行 排序 ， 并 计算 前 缀 token 集 合 。 


这 样 ， 每 个 记录 用 于 创建 索引 的 前 缀 都 是 由 在 全 局 上 出 现 频率 较 低 的 token 构 成 。 这 样 生 成 的 倒 排 索引 的 每 个 索引 项 所 对 应 的 记录 列表 
将 达到 最 小 ， 而 由 索引 项 作为 分 块 键 值 生成 的 数据 分 块 所 包含 的 记录 数量 也 是 最 小 的 ， 从 而 减少 了 候选 记录 对 的 生成 数量 。 该 方法 的 缺点 是 
对 于 统计 token 词 频 和 排序 需要 一 定 的 开销 。 

另 一 种 方法 是 在 前 级 过渡 基础 上 增加 新 的 过 渡 规 则 以 进一步 减少 分 块 内 的 候选 匹配 对 生成 。 一 种 是 基于 位 置 过 滤 与 前 缀 过 渡 结 合 的 方法 
一 一 ppjoin [15] 。 该 方法 的 思想 是 对 于 在 前 缀 中 具有 相同 token 的 两 个 记录 ， 利 用 token 的 位 置信 息 可 以 估计 键 值 的 相似 性 是 否 有 可 能 符合 
阔 值 。 假 设 记录 x 的 分 块 键 为 kx= {A，B，C，D，E} ， 记 录 y 的 分 块 键 为 ky= {B，C，D，E，F} ， 相 似 度 阔 信 t=0.8， 则 基于 前 绎 过滤 方 法 
记录 x 的 前 绎 为 {A，B} ， 记 录 y 的 前 缀 为 {B，C} 。 可 以 看 到 记录 x 和 y 都 将 被 插入 到 B 的 分 块 中 。 然 而 ， 如 果 我 们 考虑 B 在 记录 x 和 y 的 
token 队 列 中 的 位 置信 息 ， 会 发 现 这 两 个 记录 能 够 匹配 的 最 多 的 token 数 量 为 1+ min (3，4) =4， 则 这 两 个 记录 的 相似 度 最 大 为 4/6=0.67， 
因此 不 满足 阔 值 可 能 被 过 滤 掉 。 为 此 提出 了 位 置 过 滤 原 则 (定理 3.2) ， 用 于 进一步 过 滤 候选 记录 对 。 

定理 3.2 (位 置 过 滤 原 则 ) ” 对 于 一 组 记录 ， 在 其 所 包含 的 所 有 token 上 有 一 个 全 局 排序 DO， 每 个 记录 中 的 token 均 基于 O 〇 进行 排序 。 假 设 有 
token 为 w=x [i] ，w 将 记录 的 token 队 列 分 成 了 左 分 区 C=x [1http://www.hzcourse.com/resource/readBook? 


path= /opentesources/teach_ebook/uncompressed/17176/OEBPS/Text/..i-1] FD Ex, (w) =x Lihttp://www.hzcourse.com/resource/treadBook? 


path= /opentesources/teach_ebook/uncompressed/17176/OEBPS/Text/..|x|] 。 如 果 O (x, y) > 兰 x， 则 对 于 每 个 wExmy， 有 


O (xı (w) > Yi (w) ) +min (|x, (w) |, ly: (w) |) Zho 


假设 w 在 记录 x 和 y 中 分 别 为 x [i] 和 y [j] ， 在 实际 的 算法 实现 中 ，a 可 根据 式 (3.8) 中 计算 公式 获得 ， 右 分 区 的 最 大 匹配 token 数 量 为 
min (|xr (w) |, [yr (w) |) =1+min (|xr (w) J-i; lyr (w) j) 。 基 于 位 置 过 滤 的 操作 需要 在 分 块 中 生成 候选 记录 对 时 计算 
O (xj (w) , yı (w) ) ， 因 此 会 增加 分 块 的 执行 代价 。 


3.5 ”本章 小 结 


本 章 介绍 了 实体 识别 中 的 数据 分 块 技术 。 分 块 技术 将 数据 集合 划分 为 多 个 数据 块 ， 其 中 相互 匹配 的 记录 被 划分 到 同一 个 数据 块 中 ， 而 不 
能 匹配 的 记录 则 插入 到 不 同 的 数据 库 中 。 数 据 分 块 技术 主要 用 于 减少 实体 识别 中 比较 记录 对 的 数量 ， 从 而 提高 实体 识别 整体 的 执行 效率 。 数 
据 分 块 中 一 个 关键 的 问题 是 分 块 键 定义 ， 优 化 的 分 块 键 定义 能 够 在 保证 发 现 真实 匹配 记录 对 的 基础 上 尽 可 能 地 缩减 比较 记录 对 的 数量 。 通 常 
情况 下 ,分 块 键 是 根据 经 验 手工 设置 的 ， 对 于 分 块 键 较 多 的 情况 也 提出 了 基于 学 习 的 分 块 键 定义 方法 。 对 于 使 用 相似 度 作 为 属性 值 间 匹配 判 
断 方 式 的 实体 识别 方法 ， 则 需要 根据 具体 的 相似 性 算法 和 实体 记录 的 特征 选择 合适 的 分 块 方法 ， 这 类 算法 包括 基于 排序 的 方法 、 基 于 
MinHash 的 方法 、 基 于 聚 类 的 方法 和 基于 映射 的 方法 等 ， 其 中 基于 排序 的 方法 和 基于 MinHash 的 方法 更 适合 大 数据 上 的 实体 识别 任务 。 在 各 
种 分 块 算法 中 ， 倒 排 索引 结构 被 广泛 用 于 处 理 分 块 键 或 排序 键 的 键 值 ， 以 生成 分 块 或 为 生成 分 块 提供 索引 。 而 无 论 在 哪 种 分 块 算法 中 ， 虽 然 
一 个 候选 记录 对 可 能 在 多 个 分 块 中 出 现 ， 但 最 终 执 行 比较 操作 时 都 只 会 被 执行 一 次 以 判断 两 个 记录 是 否 匹 配 。 


实体 识别 的 分 块 技术 不 仅 降低 了 实体 识别 中 记录 匹配 的 执行 代价 ， 也 使 得 在 大 数据 上 的 实体 识别 任务 能 够 在 分 布 式 处 理 框架 上 进行 并 行 
处 理 ， 从 而 进一步 提升 实体 识别 任务 的 执行 效率 。 
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第 4 草 ”基于 机 器 学 习 的 实体 识别 方法 


机 器 学 习 方 法 是 与 领域 无 关 的 通用 实体 匹配 算法 ， 其 基本 思想 是 对 训练 样本 进行 多 次 迭代 计算 以 得 到 匹配 模型 的 参数 值 ， 以 避免 人 工 确 
定 字 段 权重 和 匹配 阔 值 。 目 前 ， 基 于 机 器 学 习 的 实体 识别 方法 主要 分 为 两 类 : 基于 分 类 器 的 实体 识别 方法 和 基于 概率 图 模型 的 实体 识别 方 
法 。 


41 基于 分 类 器 的 实体 识别 方法 


基于 分 类 器 的 实体 识别 方法 将 实体 识别 问题 视 为 一 种 分 类 问题 ， 最 终 将 记录 对 归 类 为 匹配 和 不 匹配 两 大 类 。 例 如 ， 假 定 实体 的 类 别 为 文 
章 ， 每 篇 文章 对 应 一 条 数据 记录 ， 由 文章 名 、 作 者 名 、 出 处 等 属性 进行 描述 。 实 体 识别 的 目标 就 是 要 从 这 些 记录 中 识别 出 重复 的 文章 记录 。 
也 就 是 说 ， 针 对 每 两 条 记录 ， 根 据 它 们 的 匹配 程度 ， 赋 予 其 一 个 “匹配 ”或 “不 匹配 ”的 类 别 标签 。 那 么 ， 如 何 将 它们 准确 地 进行 分 类 呢 ? 
核心 问题 是 要 确定 合适 的 参数 (如 属性 权重 、 相 似 度 立 值 ) 、 匹 配 冰 数 以 及 匹配 规则 等 。 借 助 于 机 器 学 习 理论 中 的 决策 树 、 贝 叶 斯 分 类 器 、 
SVM、 主 动 学 习 等 模型 及 相关 策略 ， 能 够 很 好 地 解决 分 类 问题 ， 进 而 解决 实体 识别 问题 。 


基于 分 类 器 的 实体 识别 方法 的 基本 思想 是 : 首先 建立 一 个 初始 的 实体 识别 模型 ; 然后 ， 利 用 训练 数据 集 ( 即 一 组 已 人 工 标记 好 “ 匹 


配 ” 或 “不 匹配 ”的 记录 对 ) 对 该 模型 进行 反复 训练 ， 逐 渐 地 ， 模 型 在 训练 中 能 够 学 习 到 “如 果 哪 些 属性 相似 ， 那 么 记录 对 匹配 的 概率 会 更 
A" “应 用 哪 种 匹配 函数 会 得 到 与 标记 结果 更 加 类 似 的 识别 结果 ” “记录 之 间 的 相似 度 要 达到 什么 程度 ， 才 能 认为 它们 是 匹配 的 ”等 内 容 ; 
最 终 ， 将 这 些 学 习 到 的 参数 、 函 数 以 及 规则 应 用 于 实体 识别 模型 中 ， 以 提高 实体 识别 的 准确 度 。 上 述 过 程 如 同 婴 儿 认 知 世界 的 过 程 ， 首 先 婴 
儿 来 到 这 个 世界 ， 然 后 由 父母 、 老 师 不 断 地 教授 其 知识 ， 使 婴儿 逐渐 学 习 知识 ， 从 而 建立 起 对 世界 的 认 知 。 


按照 所 采用 的 分 类 方法 不 同 ， 基 于 分 类 器 的 实体 识别 可 分 为 基于 决策 树 的 实体 识别 、 基 于 贝 叶 斯 分 类 器 的 实体 识别 、 基 于 SVM 的 实体 识 
别 、 基 于 主动 学 习 的 实体 识别 、 基 于 误差 逆 传 播 算法 的 实体 识别 和 基于 遗传 编程 算法 的 实体 识别 等 。 一 般 情 况 下 ， 这 些 待 匹配 的 记录 被 看 作 
独立 且 均 匀 分 布 的 。 


41.1 ”基于 决策 树 的 实体 识别 方法 


决策 树 (Decision Tree) 是 一 种 常见 的 机 器 学 习 方法 。 利 用 决策 树 可 以 对 给 定 训练 集 进 行 学 习 ， 以 对 新 示例 进行 分 类 。 一 棵 决策 树 包含 
一 个 根 结 点 和 若干 个 内 部 结 点 ， 以 及 若干 个 叶子 结 点 ， 叶 子 结 点 对 应 于 决策 结果 ， 即 我 们 所 希望 的 判定 结果 ， 其 他 每 个 结 点 则 对 应 于 一 个 属 
性 测试 。 由 于 实体 识别 问题 可 被 视 为 一 种 分 类 问题 ， 因 此 一 些 文献 提出 了 基于 决策 树 的 实体 识别 方法 。 


1 一 个 实例 


基于 决策 树 的 实体 识别 方法 是 针对 实体 识别 过 程 中 参数 较 多 、 匹 配 复杂 度 较 高 等 问题 而 提出 的 。 例 如 ， 假 定 存在 两 个 数据 集 一 一 
wireline 和 wireless， 它 们 中 的 某 些 记录 是 匹配 的 。 实 体 识别 的 任务 就 是 要 将 这 些 匹 配 的 记录 识别 出 来 ， 即 需要 确定 出 能 够 将 它们 正确 分 类 
(“ 匹 配 ” 或 “不 匹配 ”) 的 匹配 规则 。 匹 配 规则 包含 了 分 类 属性 、 属 性 阔 值 、 相 似 度 计 算 函 数 等 信息 。 考 虑 如 下 匹配 规则 : 对 于 分 别 来 自 
Wireline 和 wireless 的 两 条 记录 r1 和 r2， 如 果 它 们 在 address 属 性 的 编辑 距离 小 于 3、name 属 性 的 编辑 距离 小 于 4、r1 的 address 属 性 值 长 度 大 
于 5， 则 认为 它们 是 匹配 的 。 该 规则 涉及 address 属 性 、name 属 性 、 相 似 度 计 算 函 数 、 距 离 冰 值 、 属 性 长 度 等 参数 。 实 验 数据 表明 ， 如 果实 
体 识 别 所 涉及 的 参数 数量 较 多 (大 于 4 个 ) ， 则 无 法 采用 手工 的 方法 对 它们 的 取 值 进行 准确 而 合理 的 设置 [1] 。 


利用 决策 树 理论 可 以 将 甄别 能 力 较 强 的 参数 作为 分 类 基准 ， 以 此 来 提高 实体 识别 的 性 能 。 针 对 上 面 的 实例 ， 就 是 要 进行 分 类 树 决 策 ， 相 
当 于 通过 address 属 性 是 否 相 似 、name 属 性 是 否 相 似 、address 属 性 是 否 达到 一 定 长 度 将 记录 对 划分 为 两 个 类 别 : 匹配 和 不 匹配 。 为 此 ， 一 
些 基 于 决策 树 的 实体 识别 方法 [1-3] 被 提出 。 


2. 基 于 决策 树 的 实体 识别 算法 


基于 决策 树 的 实体 识别 方法 可 以 有 效 地 解决 上 述 问题 。 该 类 方法 的 基本 思想 是 : 将 两 个 实体 是 否 匹 配 的 问题 转换 为 基于 树 结构 来 进行 决 
策 的 问题 。 该 决策 过 程 包括 一 系列 的 判断 或 “ 子 决策 ” ( 先 看 某 个 属性 即 参数 的 取 值 ， 根 据 其 状况 再 判断 其 子 结 点 对 应 的 属性 ) ， 以 得 出 最 
终 决策 〈 即 这 两 个 实体 是 否 是 匹配 的 ) 。 基 于 决策 树 的 实体 识别 的 目标 是 要 产生 一 棵 泛 化 能 力 强 的 决策 树 ， 使 其 能 遵循 简单 且 直 观 的 “分 而 
治之 ”的 策略 ， 针 对 实体 是 否 匹 配 的 问题 进行 决策 。 因 此 ， 基 于 决策 树 的 方法 可 以 对 待 匹 配 的 属性 做 出 选择 ， 挑 选 出 当前 数据 集 下 鉴别 度 较 
高 的 属性 进行 匹配 ， 以 降低 实体 识别 算法 的 复杂 度 。 


下 面 以 文献 [1] 为 例 来 介绍 基于 决策 树 的 实体 识别 算法 。 该 文献 将 机 器 学 习 方法 与 统计 学 方法 相 结合 ， 利 用 决策 树 来 识别 及 消除 元 余 
或 无 用 的 参数 。 算 法 流程 如 下 。 


1) 生成 训练 集 。 首 先 ， 从 样本 数据 库 中 选 出 训练 样 例 ， 尽 量 将 来 自 不 同 数据 集 的 重复 样本 作为 训练 样 例 ; 然后 ， 以 表格 的 形式 将 训练 
样 例 表示 为 训练 集 ， 该 表格 由 7 列 参数 构成 (是否 匹配 的 类 标签 、address 属 性 的 编辑 距离 、name 属 性 的 编辑 距离 、address 属 性 分 别 在 
wireline 和 wireless 中 的 长 度 、name 属 性 分 别 在 wireline 和 wireless 中 的 长 度 ) ， 表 中 每 一 行 表 示 一 对 匹配 记录 。 


2) 基于 CART 算 法 生成 匹配 规则 。 其 基本 思想 是 使 用 “基尼 (Gini) 指数 ”来 选取 划分 参数 ， 该 指数 反映 了 从 数据 集中 随机 抽取 的 两 个 
样本 类 别 标记 不 一 致 的 概率 。Gini 指 数 越 小 ， 数 据 集 的 纯度 越 高 。 因 此 ， 对 于 候选 参数 集合 ， 要 选择 使 得 划分 后 Gini 指 数 最 小 的 参数 作为 最 
优 划 分 参数 。 例 如 ， 对 于 name 属 性 的 长 度 这 一 参数 ， 由 于 它 的 Gini 指 数 较 大 ， 因 此 赋予 该 参数 的 权 值 就 较 弱 ， 生 成 的 匹配 规则 为 : 


2 X Addressdistance + 1. 3 X Namelength < 3 > EZ fiz 
3) 基于 模型 选择 (Model Selection) 策略 降低 复杂 度 。 其 目标 是 选取 一 组 参数 ， 在 该 组 参数 的 作用 下 ， 使 得 分 类 的 准确 度 与 复杂 度 达 


到 最 佳 平衡 点 ， 最 终生 成 的 决策 树 如 图 4-1 所 示 。 从 图 中 可 以 看 出 ， 通 过 对 参数 进行 筛选 ， 决 策 树 的 很 多 分 支 没有 被 展开 ， 因 此 显著 减少 了 
决策 树 的 训练 时 间 开 销 和 测试 时 间 开 销 ， 降 低 了 算法 的 复杂 度 。 


Addressdistance? 
.5 >] 


_— 


wireless Namelength? 


:3 







图 4-1 基于 决策 树 的 实体 识别 示例 


4.1.2 ”基于 贝 叶 斯 分 类 器 的 实体 识别 方法 


贝 叶 斯 决策 论 是 概率 框架 下 实施 决策 的 基本 方法 。 对 于 实体 识别 任务 来 说， 在 所 有 相关 概率 都 已 知 的 理想 情形 下 ， 利 用 贝 叶 斯 决策 论 可 
以 基于 这 些 概率 和 误 判 损失 来 选择 最 优 的 类 别 标记 。 因 此 ， 一 些 基 于 贝 叶 斯 分 类 器 的 实体 识别 方法 被 提出 。 


1. 一 个 实例 


对 于 每 个 实体 对 来 阅 ， 实 体 识别 的 目标 是 要 判断 它们 是 否 在 现实 世界 中 是 等 价 的 〈 即 相互 匹配 ) 。 因 此 ， 实 体 识别 问题 可 以 用 分 类 方法 
加 以 解决 ， 其 类 别 标记 为 “匹配 ”或 “不 匹配 ”。 表 4-1 表 示 一 个 训练 数据 集 ， 包 含 了 记录 对 的 匹配 情况 ， 即 匹配 规则 。 这 些 规 则 将 用 于 
对 “人 ”的 记录 进行 匹配 。 其 中 ， 每 条 匹配 规则 由 一 些 属性 描述 (如 是 否 重 名 、 性 别 是 否 相同 、 姓 名 是 否 存在 缺失 、 城 市 是 否 相同 、 街 道 是 
否 相同 等 ) 。 若 存在 测试 实体 对 { ( 张 三 ， 男 ， 沈 阳 市 ， 和 平 区 ) ，( 张 三， 男 ， 沈 阳 市 ， 沈 河 区 ) }， 需 要 对 其 进行 匹配 决策 ， 即 判断 它们 
是 否 是 匹配 的 。 它 们 所 符合 的 匹配 规则 为 : 〈 重 名 ， 性 别 同 ， 姓 名 不 存在 缺失 ， 城 市 相同 ， 街 道 不 同 ，..) ， 如 表 4-2 所 示 。 该 实体 对 是 否 
配 ， 既 与 实体 的 整体 情况 相关 ， 又 与 该 匹配 规则 的 各 个 属性 相关 。 若 类 别 为 “匹配 ”的 先 验 概率 较 高 ( 表 4-1 中 类 别 为 “匹配 ”的 先 验 概率 
为 075) ， 目 测试 样 例 所 符合 的 匹配 规则 中 各 个 属性 在 “匹配 ”下 的 条 件 概率 较 高 ( 表 4-1 中 P 重 名 |m 本 = 1，Pi 喇 | m 配 = 0.67，P 姓 名 不 他 在 丘 





撩 四 R= 1，P 城 市 相同 | 上 配 =0.67，P 街 道 不 同 |m 配 =0.33) ， 则 测试 实体 对 相互 “匹配 ”的 后 验 概率 就 较 高 (Per 号 xP 重 名 | 匹配 x P 性 喇 |m 配 xP 姓 
和 名 不 存在 锯 失 玫 配 x P 城 市 相同 号 x P 街 道 不 同 |m 配 =0.75x1x0.67x1x0.67x0.33=0.11) 。 若 测试 实体 对 “匹配 ”的 后 验 概率 大 于 “不 匹配 ”的 
后 验 概率 ， 则 认为 它们 是 匹配 的 ， 反 之 认为 它们 不 匹配 。 


表 4-1 训练 数据 集 示例 


编号 EZ ”性别 同 。 姓名 存在 缺失 ”城市 相同 ”街道 相同 匹配 
l 是 是 否 是 是 是 
2 是 是 5 否 是 是 
3 是 i7 否 是 否 是 
4 a 是 是 是 a ‘i 


表 4-2 测试 数据 示例 


编号 BF 性 别 同 姓名 存在 缺失 ”城市 相同 ”街道 相同 ae 匹配 


是 是 否 i 否 =- ? 


基于 贝 叶 斯 判定 准则 可 以 有 效 地 对 这 种 后 验 概率 进行 估计 ， 因 此 一 些 文献 提出 了 基于 贝 叶 斯 分 类 器 的 实体 识别 方法 ， 该 方法 是 一 种 较 早 
地 将 机 器 学 习 理 论 应 用 于 实体 识别 问题 的 方法 。 例 如 ， 文 献 [4] 提出 了 Fellegi-Sunter 模 型 ， 该 模型 实现 了 基于 贝 叶 斯 概率 的 实体 匹配 策 
略 。 文 献 [5-7] 针对 Fellegi-Sunter 模 型 所 存在 的 问题 (如 在 估计 记录 的 “不 匹配 ”程度 上 过 于 乐观 、 应 用 范围 有 限 等 ) 进行 了 分 析 ， 并 对 
此 进行 了 改进 ， 采 用 期 望 最 大 化 (Expectation Maximization, EM) 算法 来 计算 最 大 似 然 率 ， 以 此 估计 模型 参数 。 文 献 [8] 给 出 了 一 个 贝 
叶 斯 网 络 模型 的 计算 方法 ， 并 针对 最 大 似 然 率 的 估计 、 先 验 概率 和 后 验 概率 的 计算 等 问题 进行 了 研究 。 


2. 基 于 贝 叶 斯 分 类 器 的 实体 识别 算法 


基于 贝 叶 斯 分 类 器 的 实体 识别 方法 的 基本 思想 是 : 针对 某 对 实体 ， 通 过 “匹配 ” (或 “不 匹配 ”) 的 先 验 概率 ， 利 用 贝 叶 斯 判定 准则 计 
算出 其 后 验 概率 ， 即 该 实体 对 属于 “匹配 ”类 别 (或 “不 匹配 ”类 别 ) 的 概率 ， 选 择 具 有 最 大 后 验 概率 的 类 作为 该 实体 对 所 属 的 类 。 也 就 是 
说 ， 要 利用 贝 叶 斯 分 类 器 达到 “匹配 ” (或 “不 匹配 ”) 分 类 错误 率 的 最 小 化 。 贝 叶 斯 判定 准则 如 公式 (4.1) 所 示 ， 其 中 ，P (c) 是 类 先 验 
概率 ， 这 里 的 c 指 “匹配 ”、“ 不 匹配 ”两 种 类 别 ; P (xc) 是 样本 x ( 即 某 对 实体 所 满足 的 匹配 规则 ) 相对 于 类 标记 < 的 类 条 件 概率 ， 也 就 是 
在 “匹配 ” (或 “不 匹配 ”) 的 条 件 下 ， 样 本 x 发 生 的 概率 ， 也 被 称 为 “ 似 然 ”; P (x) 是 用 于 归 一 化 的 “证 据 ” 因 子 ， 该 因子 一 般 与 类 标 
记 无 关 ， 因 此 估计 P (cx) 的 问题 就 转化 为 如 何 基于 训练 数据 来 估计 先 验 概率 P (c) 和 似 然 P (x|c) 。 


P(c)P(alc) 
P(x) 


基于 贝 叶 斯 分 类 器 的 实体 识别 方法 是 一 种 基于 概率 方法 的 数据 匹配 策略 ， 该 方法 需要 计算 实体 对 的 匹配 比率 ， 根 据 比 率 大 小 对 它们 进行 
分 类 。 对 于 任何 一 对 实体 记录 ， 根 据 其 匹配 比率 可 以 被 划分 到 两 个 决策 空间 : 匹配 和 不 匹配 (也 可 以 是 三 个 决策 空间 : 匹配 、 不 匹配 和 可 能 
匹配 ) 。 该 方法 的 算法 流程 如 下 。 


Plc|z) (4. 1) 


1) 构建 训练 数据 集 。 该 数据 集中 的 每 条 记录 代表 某 对 实体 在 各 个 属性 上 的 匹配 情况 ， 即 满足 的 匹配 规则 ， 并 将 其 用 “比较 向 量 ”来 表 
示 。 向 量 中 的 每 一 维 代表 该 实体 对 在 某 个 属性 或 某 组 属性 上 的 匹配 情况 ， 如 姓名 是 否 相同 、 姓 名 是 否 存 在 缺失 、 城 市 是 否 相 同等 。 同 时 ， 训 
练 数据 集中 的 每 条 记录 已 经 被 人 工 标记 了 其 所 属 的 类 别 ( “匹配 ”或 “不 匹配 ”) 。 





2) 构建 待 匹 配 实体 对 的 “比较 向 量 ”。 针 对 待 匹 配 的 某 对 实体 记录 ri 与 5， 与 步骤 1 相 类 似 ， 用 “比较 向 量 ” ( 记 为 x) 来 表示 它们 在 各 
个 属性 上 的 匹配 情况 。 

3) 计算 先 验 概率 P (c) 。 根 据 训 练 数据 集中 的 记录 在 决策 空间 上 的 分 布 情况 计算 “匹配 ”、 “不 匹配 ”的 先 验 概率 。 

4) 计算 “比较 向 量 ”x 在 某 种 类 标记 下 的 条 件 概率 P (x\c) 。 也 就 是 要 计算 在 “匹配 ” (或 “不 匹配 ”) 的 条 件 下 ，x 发 生 的 概率 。 该 概 


率 值 与 构成 x 的 各 个 维 是 相关 的 ， 若 各 维 属性 上 的 匹配 情况 与 训练 数据 集中 的 匹配 情况 越发 一 致 ， 即 说 明 前 者 在 训练 数据 集中 频繁 地 发 生 ， 则 
P (x|c) 的 值 就 越 高 。 


5) 计算 后 验 概率 P (cx) 。 根 据 P (c). P (xlc) ， 应 用 公式 (4.1) 计算 x 被 标记 为 c 的 后 验 概率 ， 并 根据 该 值 将 x 进行 类 标记 。 如 果 后 
验 概率 P (匹配 |x) AFP (不 匹配 |x) ， 则 将 x 判断 为 匹配 的 “比较 向 量 ”， 即 认为 ri 与 "是 匹配 的 ; 否则 ， 认 为 它们 不 匹配 。 


值得 注意 的 是 ， 在 缺乏 训练 样本 数据 的 条 件 下 ， 上 述 解决 方案 将 无 法 准确 地 对 实体 对 进行 类 标记 。 为 此 ， 一 些 文献 在 上 述 解 决 方案 的 基 
础 上 ， 又 提出 了 基于 EM 算法 的 改进 策略 。 改 进 策略 的 核心 思想 是 基于 EM 算法 来 计算 最 大 似 然 率 ， 主 要 分 为 E 和 M 两 个 步骤 : E 步 又 是 指 根据 
训练 数据 推断 出 隐 变 量 ( 即 未 观测 变量 ) 的 值 ，M 步 又 是 指 通 过 寻找 参数 最 大 化 期 望 似 然 ， 对 参数 进行 极 大 似 然 估计 。 这 两 个 步骤 交 蔡 进 
行 ， 直 人 至 收敛 到 局 部 最 优 解 。 








4.1.3 ”基于 SVM 的 实体 识别 方法 


在 机 器 学 习 领 域 ,支持 向 量 机 (Support Vector Machine, SVM) 是 一 个 有 监督 的 学 习 模型 ， 通 常用 来 进行 模式 识别 、 分 类 以 及 回归 
分 析 。 对 于 分 类 来 说 ，SVM 是 一 种 二 类 分 类 模型 ， 其 目标 是 基于 训练 数据 集 在 样本 向 量 空间 中 找到 具有 最 大 间隔 的 划分 超 平 面 ， 将 不 同类 别 
的 样本 分 开 。 对 于 实体 识别 任务 来 说 ， 两 个 实体 在 各 个 属性 上 的 匹配 程度 以 及 它们 在 不 同 相似 度 函 数 作 用 下 所 计算 出 的 相似 性 均 可 以 用 向 量 
形式 来 表示 。 因 此 ， 一 些 文献 提出 了 基于 SVM 的 实体 识别 方法 ， 通 过 计算 这 些 向 量 与 超 平面 间 的 距离 来 确定 两 个 实体 是 否 匹 配 。 


1. 一 个 实例 


实体 识别 的 准确 程度 与 属性 相似 度 计 算 函 数 的 选取 是 密切 相关 的 ， 而 针对 实体 的 不 同属 性 (各 个 属性 千差万别 ) ， 很 难 找到 某 种 “万 能 
的 ”相似 度 计算 方法 。 例 如 ， 假 定 两 个 实体 在 某 属 性 的 取 值 中 均 出 现 了 “Street” 子 串 ， 如 果 该 属性 表示 地 址 ， 则 “Street” 子 串 对 于 实体 
识别 的 重要 性 似乎 不 大 ， 甚 至 可 以 被 忽略 ; 然而 ， 如 果 该 属性 表示 人 名 (如 “Nick Street” ) 或 报刊 名 (如 “Wall Street Journal”) , 
则 “street” 子 串 将 直接 影响 实体 的 匹配 与 否 。 如 果 采 用 人 工 方式 为 每 种 属性 确定 相似 度 计 算 标 准 ， 在 属性 数目 及 可 选 标准 类 型 较 多 的 情况 
下 是 不 现实 的 。 为 此 ， 实 体 识 别 系统 需要 针对 不 同 的 属性 自 适 应 地 “学 习 ” 出 一 种 或 多 种 相似 度 计算 函数 。 


除了 要 计算 各 个 属性 间 的 相似 度 ， 实 体 识别 系统 还 要 将 这 些 相似 度 进行 整合 ， 从 而 计算 记录 之 间 的 相似 度 。 例 如 ， 图 4-2 表 示 4 条 记录 
R1~R4， 每 条 记录 由 5 个 属性 构成 。 将 两 条 记录 在 各 个 属性 上 的 相似 度 以 权重 向 量 的 形式 表示 ， 就 形成 了 6 个 权重 向 量 
WV (R1, R2) ~WV (R3, R4) 。 从 这 些 向 量 可 以 看 出 : 如 果 两 条 记录 在 所 有 的 属性 上 是 相同 的 或 者 是 相似 的 ， 则 它们 代表 同一 实体 的 可 
能 性 较 高 。 反 之 ， 它 们 将 代表 不 同 的 实体 。 这 些 权重 向 量 构成 了 某 种 向 量 空间 ， 实 体 识别 的 任务 就 是 要 在 向 量 空 间 中 将 它们 分 成 两 种 类 别 
一 一 匹配 与 不 匹配 。 








Christina Main 


WV(R1,R2): [0.9, 1.0, 1.0, 1.0, 0.9] 
Christine Main Street 
WV(R1,R3): [0.0, 0.0, 0.0, 0.0, 0.0] 
St 


WV(R1,R4): [0.0, 0.0, 0.5, 0.0, 0.0] 


O’Brian Smith Rd W V(R2,R3): [0.0, 0.0, 0.0, 0.0, 0.0] 
W V(R2,R4): [0.0, 0.0, 0.5, 0.0, 0.0] 
Road 


Bryce Smythe 
WV(R3,R4): [0.7, 0.3, 0.5, 0.7, 0.9] 














图 4-2 ”记录 对 的 权重 向 量 表示 


因此 ， 一 些 文献 提出 了 基于 SVM 的 实体 识别 方法 ， 主 要 体现 基于 SVM 来 确定 属性 相似 度 计 算 函 数 和 确定 记录 相似 度 计算 函数 两 个 方面 。 
例如 ， 文 献 [9] 将 构成 某 属性 的 各 个 子 串 表 示 为 向 量 空间 ， 基 于 SVM 来 确定 该 属性 的 相似 度 计 算 函 数 ， 并 且 采 用 SVM 分 类 器 训练 模型 ， 从 
而 得 到 匹配 结果 。 文 献 [10] 将 两 条 记录 之 间 的 相似 性 以 权重 向 量 表示 ， 基 于 SVM 来 评估 记录 之 间 的 相似 性 。 


2. 基 于 SVM 的 实体 识别 算法 


Ia, ry.) 


aage PE a) (P, e)a ee (PD) Etch Og, y) 表示 一 对 待 比较 的 记录 (或 属性 值 ) , Po’ 


是 记录 对 (或 属性 值 对 ) 的 向 量 表示 ，c 的 值 为 + 1 或 -1， 分 别 表示 “ 匹 配 ” 和 “不 匹配 ”。 基 于 SVM 的 实体 识别 方法 的 基本 思想 是 : 基于 训 
练 数据 集 D， 在 记录 对 (或 属性 值 对 ) 的 向 量 空间 中 找到 一 个 “容忍 性 ”好 的 划分 超 平面 ， 使 得 不 同类 别 的 样本 能 够 被 区 分 开 。 也 就 是 说 ， 
要 保证 该 划分 超 平面 所 产生 的 分 类 结果 是 最 鲁 棒 的 ， 以 达到 对 未 见 示例 的 泛 化 能 力 最 强 。 对 于 向 量 空 间 中 的 点 ， 若 它 到 划分 超 平 面 的 距离 较 
大 ， 则 它 的 类 标记 结果 就 越 具有 说 服 力 。 例 如 ， 如 图 4-3 所 示 ， 假 定 记录 对 的 向 量 空间 为 二 维 (P1 和 P2) ， 人 存在 多 个 划分 超 平面 (A、B、C 
等 ) 能 够 将 两 类 训练 样本 分 开 ， 但 应 该 从 中 选择 对 训练 样本 局 部 扰动 的 “容忍 性 ”最 好 的 超 平面 作为 最 终 的 划分 超 平面 ( 即 超 平面 8B) 。 对 
于 某 未 见 示例 ， 可 以 通过 计算 它 与 划分 超 平面 的 距离 4 来 衡量 它 属于 某 种 类 别 的 程度 。 





图 4-3 基于 SVM 的 实体 识别 方法 的 基本 思想 


下 面 以 文献 [9] 为 例 来 介绍 基于 SVM 的 实体 识别 的 解决 策略 。 该 文献 提出 了 一 种 SVM 分 类 器 训练 模型 MARLIN ， 该 模型 将 实体 识别 过 
程 分 为 训练 和 测试 两 个 阶段 。 训 练 阶段 又 分 为 属性 级 别 训 练 和 实体 级 别 训练 ， 分 别 用 来 学 习 属 性 相似 度 计 算 函 数 和 实体 相似 度 计算 函数 ， 即 
在 向 量 空间 中 分 别 确定 属性 级 别 和 实体 级 别 的 划分 超 平面 。 测 试 阶段 是 将 学 习 得 到 的 属性 相似 度 计算 冰 数 和 实体 相似 度 计算 函数 应 用 于 未 见 
示例 ( 某 实体 对 ) ， 计 算 该 示例 到 划分 超 平面 的 距离 ， 以 此 来 衡量 实体 之 间 的 匹配 程度 。 


其 中 ， 对 于 属性 级 别 的 训练 过 程 ，MARLIN 模 型 将 一 组 等 价 的 属性 对 S={ (x, y) ，xsy} 和 一 组 非 等 价 的 属性 对 D={ (x, y), x! sy} 作 
为 输入 ， 将 任意 一 对 属性 值 x 与 y 之 间 的 相似 度 计算 函数 Sim (x, y) 作为 输出 。 此 种 方法 的 算法 流程 如 下 (如 图 4-4 所 示 ) 。 
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图 4-4 基于 SVM 的 属性 级 别 训练 过 程 


1) 将 5 与 D 中 的 所 有 属性 取 值 以 向 量 形式 表示 ， 向 量 中 的 每 个 部 分 代表 一 个 token。 例 如 ， 假 定 属性 x 和 y 的 值 分 别 为 “3130 Piedmont 
Road” 和 “3130 Piedmont Rd.NE”， 将 它们 分 别 以 向 量 形式 表示 为 (x1, X2, X3, X4, X5) 和 (y1, Yo, y3, Y4, Y5) o 


2) 将 5 与 D 中 的 每 个 属性 对 以 向 量 P X Y) 表示 (如 公式 (4.2) 所 示 ) ， 分 别 得 到 正 例 匹 配 集 Sp={P YX' Y) ， (x, y) ES} 和 和 反例 匹配 





集 Dp={P © Y), (x, y) ED}, Heh, P% Y) 中 的 每 个 向 量 成 员 表 示 属 性 值 中 某 个 token 之 间 的 匹配 程度 。 针 对 上 例 ， 就 是 要 构造 向 量 


P & Y) = (x1y1，x2y2，x3y3，x4y4，x5y5) 。 


Pe» = (Xi (4:2) 
(Tal bT) 


3) 利用 Sp 和 Dp 来 训练 SVM 分 类 器 ， 确 定 类 别 划分 的 超 平面 ， 以 此 学 习 出 分 类 函数 f (POY) ) ， 即 向 量 空间 中 的 点 与 该 平面 之 间 的 距 
离 。 上 例 就 是 要 将 P % Y) = (XIy1，x2y2，x3y3，x4y4，x5y5) 映射 为 向 量 空间 中 的 点 (POY) ) ， 并 计算 该 点 到 超 平面 之 间 的 距离 
fP % Y)) ， 以 此 作为 衡量 x 与 y 是 否 匹配 的 依据 。 


4) 对 计算 出 的 距离 进行 归 一 化 处 理 ， 输 出 属性 值 x 与 y 之 间 的 相似 度 计算 函数 Sim (x, y) ， 如 公式 (4.3) 所 示 。 


(rsy) N — l 
Smaa — A = Sain (4,3) 


on Taia 


对 于 实体 级 别 的 训练 过 程 ，MARLIN 模 型 利用 一 组 属性 的 相似 度 值 生成 特征 向 量 ， 然 后 用 SVM 模型 加 以 训练 ， 如 图 4-5 所 示 。 该 过 程 与 
属性 级 别 的 训练 过 程 相 类 似 ， 只 是 这 里 将 实体 对 作为 输入 ， 将 它们 对 应 的 类 别 标记 (“Duplicate records” 和 “Non-duplicate 
records”) 作为 输出 。 算 法 流程 如 下 : 

1) 基于 属性 级 别 相 似 度 ， 将 实体 对 以 特征 向 量 D= (d1 (.，.) ，d2 (o) ，…，dm (.，.) ) 表示 。 由 于 不 同属 性 对 于 实体 匹配 的 贡 
献 程度 不 同 ， 因 此 要 对 其 赋予 不 同 的 权重 。 这 里 的 m 表 示 对 于 每 个 属性 要 考察 m 个 权重 。 若 构成 实体 的 属性 数目 为 k， 则 该 特征 向 量 的 维 数 为 
mxk。 例 如 ， 图 4-5 中 待 匹 配 的 两 条 记录 分 别 由 4 个 属性 构成 ， 针 对 每 个 属性 要 考察 的 权重 为 2 个 ， 则 该 实体 对 的 特征 向 量 为 8 维 ， 每 1 维 代表 
在 某 种 权重 下 某 属性 之 间 的 相似 度 。 


2) 确定 正 例 集 和 反例 集 。 将 标记 为 “Duplicate records” 的 实体 对 作为 正 例 ， 将 训练 集中 的 其 他 实体 对 作为 反例 。 


3) 利用 正 例 集 和 反例 集训 练 SVM 分 类 器 ， 确 定 对 “Duplicate records” #0 “Non-duplicate records” 进 行 划分 的 超 平面 ， 并 通过 计 
算 向 量 空间 中 的 点 与 该 平面 之 间 的 距离 来 衡量 实体 对 的 匹配 程度 。 
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图 4-5 ”基于 SVM 的 实体 级 别 训练 过 程 


414 基于 主动 学 习 的 实体 识别 方法 


主动 学 习 (active learning) 是 一 种 机 器 学 习 方 法 ， 它 让 用 户 在 学 习 过 程 中 扮演 主动 角色 。 主 动 学 习 方法 可 能 要 求 用 户 (例如 领域 专 
家 ) 对 一 个 可 能 来 自 未 标记 的 实例 集 或 由 学 习 程 序 合成 的 实例 进行 标记 。 利 用 主动 学 习 可 以 在 标记 代价 较 小 的 情况 下 获得 较 高 的 分 类 性 能 ， 
实现 实体 记录 对 标识 字段 与 匹配 函数 的 自主 学 习 。 因 此 ， 一 些 文献 提出 了 基于 主动 学 习 的 实体 识别 方法 。 


1. 一 个 实例 


对 于 基于 机 器 学 习 的 实体 识别 过 程 ， 如 果 学 习 算 法 脱离 于 人 工 干预 ， 而 完全 基于 自身 对 未 标记 数据 加 以 利用 ， 难 免 会 产生 一 些 问题 ， 举 
例 说 明 如 下 。 


1) 以 引文 领域 的 实体 识别 过 程 为 例 ， 针 对 作者 名 称 、 论 文 出 处 等 属性 的 匹配 浮 数 难以 确定 。 例 如 ， 在 表 4-3 中 ， 引 文 记录 r1 与 r2、r3 与 
r4 分 别 代表 同一 实体 ， 但 由 于 作者 名 称 存在 不 同 的 书写 格式 (r1 与 r2) 、 论 文 出 处 存在 缩写 及 不 规范 等 情况 (r3 与 4) ， 而 导致 它们 被 误 识 
别 为 不 同 的 实体 。 


表 4-3 引文 记录 范例 
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2) 引文 记录 难以 准确 地 被 结构 化 表示 ， 一 些 方法 仅 简 单 地 依赖 于 词汇 的 共 现 度 来 进行 实体 识别 。 例 如 ， 在 表 4-3 中 ， 引 文 记 录 r5 与 r6 昌 
然 存在 很 多 公共 词汇 ， 但 它们 却 不 是 同一 实体 ; 相反 ， 词 汇 共 现 度 较 低 的 r7 与 r8 实 际 上 却 代 表 相 同 的 实体 。 另 外 ， 在 很 多 应 用 领域 中 ， 对 训 
练 样本 进行 标记 通常 代价 比较 昂贵 。 例 如 ， 假 定 训练 集中 包含 n 条 记录 ， 则 需要 对 n (n-1) /2 个 记录 对 进行 标记 ， 而 其 中 真正 能 匹配 的 数量 
极为 有 限 。 


针对 上 述 问题 ， 一 些 文献 提出 了 基于 主动 学 习 的 实体 识别 方法 。 例 如 ， 文 献 [11] 提出 了 一 种 基于 主动 学 习 的 交互 式 实体 识别 系统 
ALIAS， 利 用 专家 标记 来 增强 分 类 效果 。 文 献 [12-14] 提出 基于 采样 策略 的 主动 学 习 方 法 ， 主 动 选择 未 标记 样本 中 信息 量 较 大 的 对 象 交 给 专 
家 进行 标记 ， 然 后 将 标记 后 的 样本 添加 到 训练 集中 ， 从 而 在 标记 代价 较 小 的 情况 下 获得 较 高 的 分 类 性 能 。 文 献 [15] 提出 了 一 种 基于 主动 学 
习 的 半 监 督 式 实体 匹配 方法 ， 使 用 聚 类 队列 建立 多 个 匹配 冰 数 学 习 机 ， 在 候选 训练 样本 中 主动 挑选 最 有 利于 匹配 函数 学 习 的 实体 记录 对 ， 实 
现实 体 记 录 对 标识 字段 与 匹配 函数 的 自主 学 习 。 


2. 基 于 主动 学 习 的 实体 识别 算法 


基于 主动 学 习 的 实体 识别 的 基本 思想 是 : 分 别 存在 一 个 已 经 标 好 类 标签 的 数据 集 K 和 还 未 被 标记 的 数据 集 U。 对 U 进 行 标记 并 从 中 找 出 一 
个 子 集 C 发 给 专家 ， 让 专家 对 其 作出 判断 。 待 专家 将 数据 集 C 标 记 完 成 后 加 入 到 K 集 合 中 ， 进 行 下 一 次 迭代 ， 以 此 来 增强 分 类 效果 。 


下 面 以 文献 [11] 为 例 介绍 基于 主动 学 习 的 实体 识别 算法 。 该 文献 提出 了 一 种 基于 主动 学 习 的 交互 式 实体 识别 系统 (ALIAS) ， 分 别 实 
现 了 决策 树 、 朴 素 贝 叶 斯 以 及 SVM 的 分 类 方法 来 训练 分 类 器 ， 并 对 这 些 方 法 的 性 能 进行 了 比较 。 由 于 ALIAS 系 统 可 以 通过 学 习 而 自动 构建 匹 
配 函 数 ， 因 此 较 好 地 解决 了 前 面 所 列举 的 问题 。 除 此 之 外 ，ALIAs 系 统 采 用 主动 学 习 的 策略 不 断 增 强 分 类 效果 ， 以 保证 在 初始 样本 集合 存在 


数量 不 足 时 系统 的 可 用 性 。 


ALIAs 系 统 的 基本 框架 如 图 4-6 所 示 。 系 统 的 输入 包括 待 识别 的 记录 集 D、 匹 配对 的 初始 训练 集 L 以 及 相似 度 计算 函数 集合 F。ALIAs 系 统 
的 实体 识别 流程 如 下 。 
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O 相似 度 指数 上 -针对 不 确定 数据 进行 预测 


图 4-6 ALIAS 系 统 的 基本 框架 


1) 针对 [中 的 每 个 匹配 对 ， 计 算 它 们 在 每 种 相似 度 计 算 函 数 下 的 匹配 程度 。 假 定 存在 nf 种 相似 度 计算 函数 ， 则 对 于 每 对 记录 就 有 nf 个 相 
似 度 取 值 ， 将 其 作为 它们 的 nf 个 属性 。 将 L 中 每 个 匹配 对 的 类 标签 标记 为 “1”， 其 他 标记 为 “0”。1 经 匹配 后 记 为 Lp。 


2) 利用 相似 度 计 算 函 数 集合 F， 采 用 同样 的 方式 对 D 中 未 被 标记 的 记录 进行 匹配 。D 经 匹配 后 记 为 Dp。 


3) 采用 主动 学 习 的 策略 来 增强 分 类 效果 。 学 习 器 从 Dp 中 选取 一 个 由 n 个 实例 构成 的 子 集 S 发 给 专家 ， 专 家 对 其 进行 校正 并 标记 。S 中 被 
重新 标记 的 实例 将 被 添加 到 训练 集 Lp 中 ， 学 习 器 基于 调整 后 的 训练 集 重新 进行 训练 。 该 过 程 循环 式 进行 ， 直 到 专家 对 学 习 器 的 分 类 效果 满意 
为 止 。 最 终 ， 系 统 将 输出 一 个 去 重 函 数 作为 记录 重复 与 否 的 分 类 标准 。 


4.1.5 其 他 方法 


除了 上 述 方法 外 ， 基 于 分 类 器 的 实体 识别 方法 还 包括 : 基于 误差 逆 传 播 (error Back Propagation, BP) 算法 的 实体 识别 方法 和 基于 遗 
传 编程 (Genetic Programming, GP) 算法 的 实体 识别 方法 等 。 


误差 逆 传 播 神经 网 络 (简称 “BP 神经 网 络 ”) 是 一 种 按 误差 逆 传 播 算法 训练 的 多 层 前 馈 网 络 ， 是 目前 应 用 最 广泛 的 神经 网 络 模型 之 一 。 
BP 神经 网 络 能 学 习 和 存储 大 量 的 输入 -输出 模式 映射 天 系 ， 可 使 用 梯度 下 降 法 并 通过 反 向 传播 来 不 断 调整 网 络 的 权 值 和 立 值 ， 使 网 络 的 误差 
平方 和 最 小 。 利 用 BP 神 经 网 络 可 以 从 样本 数据 中 学 习 属性 权重 等 决策 规则 ， 以 此 作为 实体 识别 的 依据 。 例 如 ， 文 献 [16] 提出 了 一 种 基于 
BP 神 经 网 络 的 二 步 检查 实体 识别 算法 ， 用 于 异 构 数据 库 的 实体 匹配 。 首 先 ， 将 样本 数据 分 为 匹配 与 非 匹配 两 类 ， 分 别 用 Matchset 和 
Unmatchset 表 示 。 其 次 ， 根 据 训练 集中 匹配 实体 的 特点 构建 神经 网 络 。 其 中 ， 输 入 层 神经 元 的 个 数 等 于 待 匹配 实体 对 的 共同 属性 个 数 ; 输 
出 层 为 三 个 神经 元 ， 当 输出 向 量 为 (1，0，0) 时 代表 匹配 的 实体 对 ; 隐 含 层 神经 元 的 个 数 为 (输入 层 神经 元 个 数 + 输 出 层 神经 元 个 数 ) /2。 
接 下 来 ， 分 别 将 Matchset 和 Unmatchset 中 的 实体 对 在 各 个 属性 上 的 相似 度 作 为 神经 网 络 的 输入 ， 输 出 目标 模式 分 别 为 (1，0，0) 和 
(0, 0, 1) ， 以 达到 训练 神经 网 络 的 目的 。 最 终 ， 神 经 网 络 收敛 到 目标 模式 。 这 种 基于 BP 神 经 网 络 的 实体 识别 方法 的 优点 在 于 不 需要 人 工 
估算 各 属性 的 权重 ， 而 是 通过 神经 网 络 来 学 习 属 性 之 间 的 内 在 关系 ， 该 方法 具有 较 强 的 自 适应 能 力 。 


遗传 编程 运用 遗传 算法 的 思想 ， 通 过 生成 计算 机 程序 来 解决 问题 。 传 统 的 遗传 算法 是 用 定 长 的 线性 字符 串 表示 一 个 基因 ， 而 遗传 编程 采 





用 树 的 形式 来 表达 算术 表达 式 、 逻 辑 表 达 式 、 程 序 等 ， 其 树 的 深度 和 宽度 是 可 变 的 。 





遗传 编程 算法 的 计算 流程 如 下 : 首先 ， 由 计算 机 模拟 产生 一 个 足够 数量 的 种 群 ， 并 由 特定 的 比较 函数 给 出 每 个 个 体 的 不 同 适应 度 ， 应 用 
达尔 文 的 自然 选择 进行 淘汰 。 接 着 ,通过 两 性 组 合 、 变 异 、 基 因 复 制 、 基 因 删 除 等 代 代 进 化 ， 直 到 达到 | 预先 确定 的 某 个 中 止 条 件 或 者 达到 | 指 
定 的 迭代 次 数 为 止 。 文 献 [17] 、 [18] 提出 了 基于 遗传 编程 算法 的 实体 识别 方法 ， 其 基本 思想 是 针对 某 实 体 对 ， 通 过 对 它们 在 各 个 属性 上 
的 相似 度 进行 +、-、*、/ 等 数学 操作 ， 根 据 计 算 结 果 来 判断 它们 是 否 对 应 同一 实体 ， 并 将 其 作为 匹配 规则 。 通 过 对 这 些 规 则 的 筛选 和 交叉 变 
异 ， 使 得 样本 的 多 样 性 得 到 增强 ， 最 终 得 到 优良 的 个 体 。 该 方法 的 优点 在 于 能 够 较 快 实现 设计 方案 的 最 佳 化 ， 提 高 设计 效率 和 质量 ， 特 别 适 
合 处 理 传统 优化 算法 中 解决 不 好 的 复杂 和 非 线 性 问题 。 


42 ”基于 概率 图 模型 的 实体 识别 方法 


基于 概率 图 模型 的 实体 识别 方法 是 将 实体 之 间 的 内 在 联系 表达 为 概率 图 模型 ， 通 过 推理 和 学 习 来 实现 联合 式 实体 识别 。 此 方法 的 提出 者 
认为 ， 记 录 之 间 并 非 孤 立 ， 而 是 存在 某 种 内 在 联系 ， 利 用 这 种 内 在 联系 可 以 避免 对 实体 的 孤立 式 匹 配 决策 。 例 如 ， 假 定 我 们 要 识别 的 实体 隶 
属于 文章 类 型 ， 如 果 采 用 4.1 节 中 介绍 的 方法 ， 实 体 识别 仪 依赖 于 文章 类 型 的 实体 ， 而 不 考虑 实体 之 间 的 关联 关系 (如 文章 和 会 议 之 间 的 关 
A) 。 而 现实 世界 中 ， 实 体 之 间 是 有 关联 的 ， 如 分 别 发 表 在 KDD 和 SIGKDD 上 的 文章 A 和 文章 B， 通 过 对 会 议 型 实体 进行 识别 可 以 得 出 KDD 和 
SIGKDD 对 应 于 同一 会 议 ， 因 此 在 计算 A 和 B 的 相似 度 时 可 以 利用 这 一 结论 对 该 相似 度 进行 增强 。 


通过 构建 概率 图 模型 可 以 表达 实体 之 间 的 内 在 联系 ， 在 概率 图 模型 上 进行 推理 和 学 习 可 以 获得 一 系列 匹配 规则 ， 能 够 较 好 地 指导 实体 识 
别 过 程 。 因 此 ， 一 些 基 于 概率 图 模型 的 实体 识别 方法 被 提出 ， 主 要 包括 基于 马尔 可 夫 逮 辑 网 络 的 实体 识别 和 基于 条 件 随机 场 的 实体 识别 。 


4.2.1 基于 马尔 可 夫 逻 辑 网 络 的 实体 识别 方法 


SRA RISB (Markov Logic Networks, MLNs) 是 一 种 简单 的 逻辑 结构 表达 方式 。 它 将 一 阶 谓 词 逻辑 和 概率 图 模型 相 结 合 ， 利 
用 已 知 变量 来 推测 未 知 变量 的 分 布 。 通 过 MLNs 可 以 表达 实体 之 间 的 内 在 联系 ， 利 用 这 种 内 在 联系 可 以 避免 对 实体 的 孤立 式 匹 配 决策 ， 即 在 
对 某 种 类 型 的 实体 识别 过 程 中 ， 其 他 类 型 实体 的 识别 结果 可 以 为 其 提供 有 用 的 信息 。 为 此 ， 一 些 文献 提出 了 基于 MLNs 的 实体 识别 方法 。 


1 一 个 实例 


在 实体 识别 过 程 中 ， 如 果 仅 仪 利 用 实体 属性 的 相似 度 来 计算 实体 之 间 的 相似 度 ， 而 没有 综合 地 考虑 其 他 实体 特征 (如 实体 之 间 的 内 在 联 
AR) ， 则 难以 保证 识别 结果 的 准确 性 。 例 如 ， 前 文 介绍 的 基于 贝 叶 斯 分 类 器 的 实体 识别 方法 将 待 匹配 的 实体 看 作 独 立 且 均匀 分 布 的 ， 针 对 某 
对 实体 的 匹配 决策 不 会 受 其 他 实体 匹配 结果 的 影响 。 然 而 事实 上 ， 这 些 待 匹配 的 记录 之 间 并 非 孤 立 ， 而 是 存在 某 种 内 在 联系 。 虽 然 这 种 内 在 
联系 增加 了 推理 和 学 习 的 复杂 程度 ， 但 是 通过 利用 这 些 信息 ， 可 有 效 地 改进 传统 的 实体 识别 方法 。 


假定 分 别 有 4 条 论文 记录 和 会 议 记 录 (如 图 4-7 所 示 ) ， 每 条 记录 都 以 PID 或 VID 进 行 唯一 标识 。 我 们 的 目标 是 分 别 对 它们 进行 实体 识 

别 ， 正 确 的 识别 结果 应 该 是 PID=0，PID=1}、{PID=2，PID=3}、{VID=10,，VID=20,，VID=30，VID=40}。 考 虑 实体 识别 的 具体 过 程 ， 首 
先 对 PID 为 0 和 和 1 的 两 条 论文 记录 进行 匹配 ， 由 于 它们 在 大 多 数 属 性 上 (Author, Title, Year) 都 是 相似 的 ， 因 此 认为 它们 是 匹配 的 ， 即 形成 
了 一 个 聚 类 {PID=0，PID=1}。 同 时 ， 由 于 同一 篇 论文 的 出 处 一 定 相 同 ， 因 此 VID 为 10 和 20 的 两 条 会 议 记 录 也 是 匹配 的 ， 即 形成 了 聚 类 
{VID=10，VID=20}。 根 据 Venue 属 性 的 相似 性 ， 该 聚 类 又 被 扩充 为 {VID=10，VID=20，VID=30，VID=40}。 接 下 来 需要 对 PID 为 2 和 3 的 
两 条 论文 记录 进行 匹配 。 如 果 单 纯 依 赖 于 这 两 条 记录 的 属性 特征 ， 可 能 无 法 确定 它们 是 否 匹 配 ， 因 为 这 两 条 记录 在 Title、Venue 属 性 上 的 取 
值 差别 均 较 大 。 但 如 果 能 够 结合 之 前 的 匹配 结果 ， 则 可 知 它们 的 Venue 属 性 值 是 等 价 的 ， 进 而 判断 它们 是 匹配 的 。 由 此 可 知 ， 若 两 条 记录 对 
应 同一 篇 论文 ， 则 它们 的 出 处 必然 相同 类似 地 ， 出 处 相同 也 可 以 作为 论文 相同 的 有 力 证 据 。 如 果 能 够 在 实体 识别 过 程 中 考虑 实体 之 间 的 内 
在 联系 ， 则 可 以 有 效 地 提高 识别 的 准确 性 。 
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图 4-7 考虑 实体 内 在 联系 的 实体 识别 示例 
利用 MLNs 可 以 将 实体 之 间 的 内 在 联系 以 一 阶 谓词 逻辑 和 概率 图 模型 表达 出 来 ， 因 此 一 些 文献 提出 了 基于 MLNs 的 实体 识别 方法 。 例 如 ， 
文献 [19] 基于 马尔 可 夫 多 辑 网 络 理论 提出 了 一 套 简 洁 而 完备 的 实体 识别 模型 。 该 文献 将 现 有 的 实体 识别 方法 与 MLNs 相 结合 ， 通 过 对 
MLNs 进 行 学 习 和 推理 ， 提 高 实体 识别 的 准确 性 。 文 献 [20] 在 文献 [19] 的 基础 上 引入 一 个 可 变 权重 的 规则 ， 试 图 解决 原 有 系统 无 法 处 理 
的 记录 二 义 性 问题 。 文 献 [21] 根据 MLNs 设 计 域 抽取 和 实体 识别 规则 ， 并 结合 属性 抽取 算法 来 解决 中 文 地 理 名 称 的 识别 问题 。 


2. 基 于 马尔 可 夫 逻 辑 网 络 的 实体 识别 算法 


马尔 可 夫 网 络 也 称 马尔 可 夫 随 机 场 (Markov Random Field, MRF) ， 它 是 一 种 无 向 图 模型 ， 由 一 个 无 向 图 G 和 一 组 势 函 数 由 k (A 
F) 构成 。G 中 的 每 个 结 点 表示 一 个 或 一 组 变量 ， 结 点 之 间 的 边 表示 两 个 变量 之 间 的 依赖 关系 。 势 函数 中 是 针对 无 向 图 中 的 每 一 个 团 而 定义 
的 ， 是 一 种 非 负 实 函数 ， 用 来 对 团 中 的 变量 天 系 进行 建 模 。 在 MRF 中 ， 多 个 变量 之 间 的 联合 概率 分 布 能 基于 团 分 解 为 多 个 因子 的 乘积 (如 公 
式 (4.4) 所 示 ) 。 其 中 ，X 为 一 组 变量 集合 {x1，x2，…，xn}，5C 为 G 中 所 有 的 团 构成 的 集合 ，XQ 是 与 团 Q (QEC) 相对 应 的 变量 集 
合 ， 帆 qa 是 团 Q 所 对 应 的 势 函 数 ，Z 是 规范 化 因子 。 


P(X) = z LU ¢0(Xe) (4. 4) 


QEC 


在 概率 图 模型 中 ， 通 常 将 势 函 数 表示 为 指数 函数 ， 指 数 项 为 对 应 团 的 加 权 特 征 量 ， 以 便于 对 MRF 的 推理 和 学 习 (如 公式 (4.5) 所 
T). Ep, WETIRE, fj (x) 表示 特征 函数 。 


P(X) = expl Swf; a) (4. 5) 


MLN< 是 将 MRF 同 一 阶 谓 词 逻 辑 相 结合 的 一 种 逻辑 结构 表达 方式 。 它 是 一 组 二 元 项 (Fi wi), HAART ME, wea 
Fi 所 对 应 的 权重 。 在 公式 (4.5) 的 基础 上 ， 可 定义 一 个 闭 MLNs 中 所 蕴 合 的 可 能 世界 的 概率 分 布 (如 公式 (4.6) 所 示 ) . BR, nj (x) 表 
示 关 于 规则 Fi 的 取 值 为 真 的 对 应 闭 规 则 的 个 数 。MLNs 的 基本 思想 是 对 一 阶 逻 辑 约束 的 放松 ， 若 某 个 可 能 世界 违反 了 一 个 规则 Fi， 则 该 世界 发 
生 的 概率 将 被 削减 。 因 此 ， 某 个 可 能 世界 所 违反 的 规则 数目 越 少 ， 则 该 世界 发 生 的 概率 就 越 大 。 另 外 ，MLNs 利 用 规则 的 权 值 w; 来 表示 规则 
限制 强度 的 大 小 ，w 越 大 ， 则 满足 该 规则 世界 的 发 生 概率 与 不 满足 该 规则 世界 的 发 生 概 率 之 间 的 差异 就 越 大 。 


P(X) = exp| Dwn æ) (4.6) 


基于 MLNs 的 实体 识别 方法 的 基本 思想 是 : 利用 MLNs 来 表达 证 据 谓 词 和 查询 谓词 ， 并 将 实体 匹配 的 规则 在 MLNs 中 以 团 的 形式 表示 ， 通 


过 对 MLNs 中 的 参数 及 网 络 结构 进行 学 习 来 优化 模型 ， 并 利用 MLNs 的 推理 机 制 对 最 大 可 能 存在 的 状态 进行 推测 。 这 里 的 查询 谓词 即 为 等 价 谓 
词 Equal (x, y) 或 SameEntity (x, y) ，x 与 y 为 待 匹 配 的 两 条 记录 ; 证 据 谓词 是 数据 之 间 所 体现 的 隐 性 和 显 性 的 关系 ， 如 

HasAuthor (paper, author) 表示 某 篇 论文 是 由 某 个 人 所 写 的 ，HasVenue (paper, venue) 表示 某 篇 论文 在 哪 发 表 。 基 于 MLNs 的 实体 
识别 的 目标 是 : 给 定数 据 集 所 体现 的 证 据 谓词 ， 利 用 MLNs 的 推理 机 制 来 推测 最 可 能 的 真 值 分 布 情况 ， 即 获取 查询 谓词 的 结果 。 


基于 MLNs 的 实体 识别 方法 一 般 分 为 构建 和 推理 两 个 阶段 。 其 中 ， 构 建 阶段 是 指 构建 MLNs 模 型 ， 并 对 模型 中 的 参数 及 网 络 结构 进行 学 习 
和 优化 。 推 理 阶段 是 指 根据 证 据 谓词 及 MLNs 中 变量 之 间 的 依赖 关系 ， 对 最 可 能 的 变量 分 布 情况 进行 推测 ， 使 得 被 满足 的 规则 的 权重 之 和 最 
大 。 

构建 阶段 的 具体 流程 如 下 。 


1) 将 n 元 关系 拆 分 为 多 个 二 元 关系 ， 并 将 其 以 证 据 谓 词 的 形式 表示 。 例 如 ， 文 献 [20] 针对 论文 和 作者 类 型 的 实体 进行 实体 识别 ， 将 三 
元 关系 Paper (title, author, venue) 拆 分 成 三 个 二 元 关系 ， 每 个 二 元 关系 以 证 据 谓 词 的 形式 表示 ， 即 HasTitle (paper, title) 、 


HasAuthor (paper，author) 和 HasVenue (paper，venue) 。 

2) 构建 与 域 相关 的 证 据 谓 词 。 例 如 ， 谓 词 HasWord (field, word) 表示 如 果 某 个 域 field 包 含 了 某 个 词 word， 则 上 述 谓词 的 取 值 为 
真 。 

3) 构建 其 他 证 据 谓 词 。 例 如 ， 文 献 [21] 针对 中 文 地 理 名 称 进行 解析 ， 它 将 word (word, position, name) 和 
SameAddress (name1，name2) 分 别 作为 证 据 谓 词 ， 前 者 表示 当 某 个 词 word 出 现在 地 理 名 称 name 的 position 位 置 上 时 ， 该 谓词 为 真 ; 
后 者 表示 当地 理 名 称 name1 和 name2 有 相同 的 空间 属性 时 为 真 。 

4) 基于 证 据 谓词 和 查询 谓词 构建 规则 。 其 中 ， 证 据 谓词 可 经 过 前 面 的 步骤 构建 ， 查 询 谓词 用 于 判断 两 条 记录 是 否 匹 配 ， 即 实体 识别 的 
结果 可 由 证 据 谓 词 推导 而 出 。 例 如 ， 规 则 SimilarCWordField (CWORD, n, n') ASameAddress (name1，name2) => 


SameEntity (n, n) 表示 当地 理 名 称 n 和 n' 具 有 相似 的 特征 域 并 且 具 有 相同 的 空间 属性 时 ， 它 们 通常 是 相同 的 实体 。 又 如 ， 规 则 v 
Xx1，Xx2，y1，y2，y3，y4，HasAuthor (x1, y1) NHasAuthor (x1, y3) NHasAuthor (x2, y2) NHasAuthor (x2, y4) nx1=x2ny1=y2 


疗 y3=y4 表 示 同 一 篇 论文 的 作者 也 对 应 相同 。 
5) 基于 证 据 谓 词 、 查 询 谓词 及 规则 构建 MLNs。 其 中 ，MLNs 中 的 结 点 为 证 据 谓 词 或 查询 谓词 ，MLNs 中 的 每 个 极 大 团 表示 一 条 规则 。 


6) 对 MLNs 中 规则 的 权重 和 网 络 结构 进行 学 习 。 对 于 规则 权重 ， 通 常 将 其 以 对 数 似 然 函 数 的 梯度 形式 表示 ， 采 用 最 大 似 然 估 计 方 法 进行 
估计 。 对 于 MLNs 的 网 络 结构 ， 通 常 采用 常用 对 数 似 然 估 计 或 条 件 对 数 似 然 估计 作为 评价 函数 。 

利用 前 文 构建 的 MLNs， 接 下 来 可 以 在 其 上 进行 一 系列 推理 。 通 过 MLNs 推 理 可 解决 的 基本 问题 包括 边缘 概率 、 条 件 概率 的 计算 ， 以 及 最 
大 可 能 存在 状态 的 推测 等 等 。MLNs 上 的 推理 算法 主要 包括 MaxWalkSAT [2*] 、LazySAT [3] 和 马尔 可 夫 链 蒙特 卡 罗 [24] 等 。 实 体 识别 
问题 被 抽象 为 MLNs 上 的 最 大 可 能 性 推理 问题 的 基本 过 程 被 表述 为 : 给 定 证 据 变量 集 X， 求 变量 集 Y 最 可 能 所 处 的 状态 (如 公式 (4.7) 所 


示 ) o 


maxyP (Y |X) = maxy >) wn; (xy) (4. 7) 


对 于 最 大 可 能 性 推理 问题 的 求解 ， 即 给 定数 据 库 中 证 据 谓 词 ， 求 最 可 能 的 真 值 分 布 可 以 通过 MaxWalkSAT 和 LazySAT 等 算法 来 实现 。 其 
中 ，MaxWalkSAT 算 法 是 一 种 带 权 的 局 部 可 满足 性 算法 ， 主 要 包括 如 下 两 个 执行 步 又 : 


1) 对 MLNs 上 XxX 中 的 所 有 变量 x 随机 赋值 。 


2) 在 所 有 未 满足 的 从 句 ( 即 规则 ) 中 随机 取得 一 个 从 句 ， 改 变 从 句 中 一 个 变量 x 的 值 。 这 里 ， 将 随机 和 贪心 相 结 合 的 思想 来 选取 x, 一 
种 方法 是 随机 选取 x， 另 一 种 方法 是 选取 这 样 一 个 x， 当 x 的 值 改 变 时 ， 所 有 已 满足 的 从 句 的 权重 之 和 将 达到 最 大 。 


4.2.2 ”基于 条 件 随 机 场 的 实体 识别 方法 


前 文 提 及 的 马尔 可 夫 随 机 场 是 一 种 生成 式 模型 ， 主 要 用 于 对 联合 分 布 进行 建 模 。 与 马尔 可 夫 随 机 场 不 同 ， 条 件 随机 场 (Conditional 
Random Field, CRF) 是 一 种 判别 式 无 向 图 模型 ， 其 目标 是 对 多 个 变量 在 给 定 观 测 值 后 的 条 件 概率 进行 建 模 ， 即 对 条 件 分 布 进行 建 模 。 条 件 
随机 场 结合 了 最 大 灶 模 型 和 隐 马 尔 可 夫 模 型 的 特点 ， 既 考虑 了 上 下 文 标记 间 的 转移 概率 ， 又 能 够 避免 标记 偏 置 等 问题 ， 近 年 来 在 实体 识别 、 
分 词 、 词 性 标注 等 任务 中 取得 了 很 好 的 效果 。 


1. 一 个 实例 





正如 4.2.1 节 所 述 ， 待 匹配 的 实体 记录 之 间 并 不 是 独立 存在 的 ， 针 对 某 种 实体 类 型 的 识别 结果 可 能 会 对 其 他 类 型 实体 的 识别 过 程 产生 影 
响 ， 它 们 之 间 存 在 某 种 内 在 联系 。 如 果 能 够 在 实体 识别 过 程 中 有 效 地 利用 这 些 内 在 联系 ， 实 体 识别 的 准确 率 将 大 大 提高 。 如 图 4-8 所 示 ， 假 
定 有 4 条 待 匹配 的 记录 。 如 果 认 为 b1 与 b2 是 匹配 的 ， 则 可 推出 Proc.PKDD-04 和 Proc.8th-PKDD 两 个 会 议 是 匹配 的 。 这 必然 会 提升 b3 和 b4 之 
间 的 匹配 程度 。 我 们 可 以 预先 计算 属性 之 间 的 相似 度 (如 两 条 记录 在 Title 或 Author 属 性 上 的 相似 度 ) ， 将 其 作为 观测 值 ( 即 证 据 ) ， 再 将 实 
体 匹 配 与 否 、 属 性 匹配 与 否 的 结果 作为 变量 。 若 能 够 对 这 些 变 量 在 给 定 观 测 值 后 的 条 件 概率 进行 计算 ,实体 识别 问题 就 会 迎刃而解 。 


C [we 


Linda Stewart Object Identification using CRFs Proc. PKDD-04 


Linda Stewart Object Identification using CRFs Proc. 8"-PKDD 
Bill Johnson Learning Boolean Formulas Proc. PKDD-04 


William Johnson Learning of Boolean Expressions Proc. 8"-PKDD 





图 4-8 基于 条 件 随 机 场 的 实体 识别 示例 


条 件 随机 场 是 一 种 用 于 在 给 定 输入 结 点 值 时 计算 指定 输出 结 点 值 的 条 件 概率 的 无 向 图 模型 。 利 用 条 件 随 机 场 模型 可 有 效 地 对 表示 实体 识 
别 过 程 中 不 同 实体 间 的 相互 影响 ， 并 对 实体 匹配 与 否 进行 评估 。 因 此 ， 一 些 文献 提出 了 基于 条 件 随机 场 的 实体 识别 方法 。 例 如 ， 文 

[25] 提出 了 一 种 以 属性 为 媒介 的 实体 识别 方法 ， 将 属性 间 相 似 度 、 属 性 是 否 匹 配 、 实 体 是 否 匹 配 等 信息 建 模 为 条 件 随机 场 ， 以 实体 对 的 
公共 属性 为 媒介 来 传播 不 同 实体 对 之 间 的 匹配 信息 ， 可 同时 对 多 个 候选 对 进行 匹配 。 文 献 [26] 提出 了 一 种 联合 式 实体 识别 方法 ， 采 用 条 件 
随机 场 来 表示 不 同类 型 实体 的 匹配 结果 之 间 的 依赖 关系 ， 并 提出 关系 分 割 算法 来 进行 实体 识别 。 


2. 基 于 条 件 随 机 场 的 实体 识别 算法 


条 件 随机 场 是 一 种 无 向 的 图 模型 ， 图 中 的 顶点 代表 随机 变量 ， 顶 点 间 的 连 线 代表 随机 变量 间 的 相依 关系 。 在 条 件 随机 场 中 ，X 是 一 个 可 
以 被 观察 的 “输入 ”随机 变量 集合 ，Y 是 一 个 能 够 被 模型 预测 的 “输出 ”随机 变量 的 集合 ， 且 这 些 输 出 随机 变量 之 间 通 过 指示 依赖 关系 的 无 
向 边 所 连接 。 条 件 随机 场 的 目标 是 构建 条 件 概率 模型 P (XlY) 。 与 马尔 可 夫 随 机 场 定义 联合 概率 的 方式 类 似 ， 条 件 随 机 场 使 用 势 函数 和 图 结 
构 上 的 团 来 定义 条 件 概率 P (XY) (如 公式 (4.8) 和 公式 (4.9) 所 示 ) 。 其 中 ，C 为 G 中 所 有 的 团 构成 的 集合 ，XQ、YQ 是 与 团 Q (QEC) 
相对 应 的 变量 集合 ，yQ 是 团 Q 所 对 应 的 势 浮 数 ，Zx 是 规范 化 因子 。 同 样 ， 这 里 也 通常 将 势 疯 数 表示 为 指数 浮 数 ， 指 数 项 为 对 应 团 的 加 权 特 征 
量 ， 人 = 从 表示 要 学 习 的 权重 ,fk (YQ, XQ) 表示 特征 函数 。 


P(X|Y) = +] doo: Xo) (4. 8) 


Zx QEC 


pal Ya: Xa) = op | (4.9) 
k 


y 


基于 条 件 随 机 场 的 实体 识别 方法 的 基本 思想 是 : 利用 条 件 随 机 场 来 表达 属性 间 相 似 度 、 属 性 是 否 匹 配 、 实 体 是否 匹 配 等 信息 ， 通 过 最 大 
似 然 估计 来 对 条 件 随机 场 中 的 参数 进行 学 习 ， 并 利用 推理 机 制 对 最 大 可 能 存在 的 状态 进行 推测 。 


基于 条 件 随机 场 的 实体 识别 方法 的 具体 流程 如 下 。 


1) 构建 条 件 随机 场 中 的 结 点 。 在 构建 条 件 随机 场 中 的 结 点 时 ， 有 些 文献 (如 文献 [26] ) 考虑 了 实体 自身 信息 、 实 体 匹配 信息 和 实体 
间 关联 信息 ， 有 些 文献 (如 文献 [25] ) 还 在 此 基础 上 考虑 了 属性 信息 。 对 于 实体 自身 信息 ， 假 定 要 针对 两 种 类 型 (a 和 b) 的 实体 进行 识 
gi, XS ONE. eee 入) 和 六 一 (XI ，…，AXw) 分 别 表示 这 两 种 类 型 的 实体 集合 。 实 体 识别 的 目标 是 对 这 两 个 集合 中 的 实体 进行 聚 
类 ， 最 终 将 相同 的 实体 聚 在 一 起 。 对 于 实体 匹配 信息 ， 将 识别 结果 以 随机 变量 Y= (Ya，Yb) KER, Sth) 用 来 表示 入 i 与 人/ 是 否 是 匹 
me, Yo 用 来 表示 和 与 \ /是 否 匹 配 。 对 于 实体 间 关 联 信息 ， 通 过 定义 随机 变量 R 来 表示 * 与 \ /之 间 是 否 存在 关联 关系 。 例 如 ， 对 于 引文 
领域 的 实体 识别 ，Xa 和 Xb 分 别 表示 引文 集合 和 出 处 集合 ， 闻 表示 引文 X 与 人 /是否 匹配 ， 及 / 表示 和 ? 是否 发 表 在 ,上 。 


2) 构建 条 件 随机 场 中 的 边 。 文 献 [26] 提出 了 三 种 构建 方法 : 前 两 种 是 基于 条 件 分 布 P (Ya，Yb，R|X) 而 构建 的 (如 图 4-9a 和 图 4- 
9b) ， 它 们 将 X 作 为 条 件 来 计算 Ya、Yb 和 R 的 分 布 。 第 三 种 要 比 前 两 种 复杂 一 些 ， 它 是 基于 条 件 分 布 P (Ya，YblX，R) 而 构建 的 (如 图 4-9c 
所 示 ) ， 它 将 X 和 R 作 为 条 件 来 计算 Ya 引 0Yb 的 分 布 。 


ee 
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a) b) c) 





图 4-9 条件 随机 场 的 构建 


3) 对 条 件 随机 场 中 的 权重 人 进行 学 习 和 推理 。 通 常 将 其 以 对 数 似 然 函 数 的 梯度 形式 表示 ， 采 用 最 大 似 然 估计 方法 进行 估计 (如 式 
(4.10) ~ 式 (4.12) 所 示 ) 。 


L= log} [] Pr |z*.2° (4. 10) 
(of. yg ED 
L E (Pufa, yh 4 1) —K) (4.11) 


OA: (Ty ED ijl 


/ II L r ! If i 
K= >) Palys syy lat sx’ or) Dif (ah yf yr) (4.12) 
Dy zy 7 7 
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4) 根据 A 及 条 件 随机 场 的 网 络 结 构 对 结 点 进行 聚 类 ， 最 终 每 个 聚 类 对 应 一 组 等 价 的 实体 。 


4.3 ”本 章 小 结 


本 章 对 基于 机 器 学 习 的 实体 识别 方法 进行 了 介绍 。 按 照 识 别 过 程 中 所 采用 的 模型 ， 可 将 其 分 为 基于 分 类 器 的 实体 识别 和 基于 概率 图 模型 
的 实体 识别 。 前 者 通过 对 分 类 器 进行 训练 ， 最 终 将 记录 对 归 类 为 匹配 或 不 匹配 ， 所 采用 的 分 类 器 包括 决策 树 、 贝 叶 斯 、SVM 等 ， 并 基于 主动 
学 习 的 策略 来 增强 分 类 效果 。 后 者 通过 建立 概率 图 模型 (包括 马尔 可 夫 逻 辑 网 络 和 条 件 随机 场 ) 来 表达 实体 之 间 的 内 在 联系 ， 并 通过 推理 和 
学 习 来 实现 联合 式 实体 识别 。 
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第 ?5 章 ” 基 于 关系 的 实体 识别 方法 


51 引言 


不 同 的 数据 对 象 通过 关联 关系 联系 起 来 ， 称 为 关联 数据 。 按 照 数据 类 型 的 多 少 ， 关 联 数据 分 为 多 类 型 关联 数据 和 单 类 型 关联 数据 。 


多 类 型 关联 数据 包括 多 种 类 型 的 数据 对 象 ， 不 同 数据 对 象 之 间 存 在 语义 关系 ， 不 同类 型 的 语义 关系 的 意义 不 同 。 多 类 型 关联 数据 构建 出 
的 图 是 异 构 图 ， 其 中 异 构 边 表示 不 同类 型 的 语义 关系 。 比 如 引文 数据 集中 包括 文章 、 作 者 、 会 议 等 ， 作 者 与 文章 之 间 的 关系 是 “ 写 
作 ” 与 “被 写作 ”， 文 章 与 会 议 之 间 的 关系 是 “发 表 在 ”与 “发 表 了 ”; 电影 数据 集中 包括 电影 、 导 演 、 演 员 、 出 品 公司 等 ， 演 员 与 电影 之 
间 的 关系 是 “ 参 演 ” 与 “被 参 演 ”， 导 演 与 电影 之 间 的 关系 是 “执导 ”与 “被 执导 ”。 一 方面 ， 不 同类 型 的 数据 对 象 间 的 语义 关系 可 以 用 于 
衡量 数据 对 象 间 的 关联 关系 的 强 弱 ， 从 而 用 于 衡量 数据 对 象 的 相似 度 ; 另 一 方面 ， 一 些 数据 对 象 的 识别 结果 会 影响 与 之 关联 的 其 他 数据 对 象 
的 识别 ， 如 果 两 个 文章 对 象 已 被 识别 为 匹配 的 ， 那 么 它们 对 应 的 作者 对 象 匹配 的 可 能 性 变 大 。 联 合式 实体 识别 就 是 相互 关联 的 不 同 数据 对 象 





的 识别 结果 的 相互 影响 ， 通 过 相似 度 传递 ， 同 时 对 多 种 类 型 的 数据 对 象 进行 实体 识别 ， 主 要 分 类 为 基于 关系 聚 类 的 联合 式 实体 识别 和 复杂 信 
息 空间 中 的 联合 式 实体 识别 ! 3]。 


单 类 型 的 关联 数据 只 包括 一 种 相互 关联 的 数据 对 象 ， 数 据 对 象 间 的 关系 类 型 通常 也 是 单一 的 。 单 类 型 的 关联 数据 构建 出 的 图 是 同 构图 ， 
其 中 同 构 边 表示 同一 种 关系 ， 但 有 不 同 权 重 ， 即 关系 的 强 弱 之 分 。 比 如 ， 在 线 社交 网 络 中 不 同 的 用 户 与 用 户 之 间 的 关系 强度 通常 不 同 ; 学 术 
合作 网 络 中 不 同 作 者 与 作者 之 间 的 合作 次 数 不 同 ， 进 而 合作 的 强度 是 不 同 的 。 通 过 挖掘 数据 对 象 间 的 拓扑 关系 ， 可 以 计算 出 数据 对 象 间 的 关 
联 强 度 ， 即 相似 度 。 实 体 消 歧 或 名 字 消 歧 是 实体 识别 中 一 个 非常 重要 的 子 问题 ， 即 不 同 数据 对 象 拥有 相同 的 名 称 (主要 是 人 名 ) 。 由 于 数据 
对 象 拥有 完全 相同 的 名 称 ， 单 单 通过 属性 信息 无 法 解决 消 歧 的 问题 。 实 体 关系 可 以 帮助 解决 消 歧 的 问题 。 无 论 是 异 构 关系 还 是 同 构 关系 ， 都 
可 以 用 于 计算 数据 对 象 间 的 关联 强度 ， 衡 量 数据 对 象 的 相似 度 ， 进 而 识别 出 哪些 数据 对 象 描述 相同 实体 或 不 同 实体 。 在 基于 实体 关系 的 消 歧 
研究 中 ， 上 典型 工作 有 基于 社交 关系 的 名 字 消 歧 、 基 于 实体 关系 的 实体 消 歧 和 基于 异 构 实体 关系 的 实体 消 歧 [10-*0] 


第 5 草 ”基于 关系 的 实体 识别 方法 


不 同 的 数据 对 象 通过 关联 关系 联系 起 来 ， 称 为 关联 数据 。 按 照 数据 类 型 的 多 少 ， 关 联 数据 分 为 多 类 型 关联 数据 和 单 类 型 关联 数据 。 


多 类 型 关联 数据 包括 多 种 类 型 的 数据 对 象 ， 不 同 数据 对 象 之 间 存 在 语义 关系 ， 不 同类 型 的 语义 关系 的 意义 不 同 。 多 类 型 关联 数据 构建 出 
的 图 是 异 构图 ， 其 中 异 构 边 表示 不 同类 型 的 语义 关系 。 比 如 引文 数据 集中 包括 文章 、 作 者 、 会 议 等 ， 作 者 与 文章 之 间 的 关系 是 “ 写 
fe 与 “被 写作 ”， 文 章 与 会 议 之 间 的 关系 是 “发 表 在 " 与“ 发表 了 ” | 电影 数据 集中 包括 电影 、 导 演 、 演 员 、 出 品 公司 等 ， 演 员 与 电影 之 
间 的 关系 是 “ 参 演 ” 与 “被 参 演 ”， 导 演 与 电影 之 间 的 关系 是 “执导 ”与 “被 执导 ”。 一 方面 ， 不 同类 型 的 数据 对 象 间 的 语义 关系 可 以 用 于 
衡量 数据 对 象 间 的 关联 关系 的 强 弱 ， 从 而 用 于 衡量 数据 对 象 的 相似 度 ; 另 一 方面 ， 一 些 数据 对 象 的 识别 结果 会 影响 与 之 关联 的 其 他 数据 对 象 
的 识别 ， 如 果 两 个 文章 对 象 已 被 识别 为 匹配 的 ， 那 么 它们 对 应 的 作者 对 象 匹配 的 可 能 性 变 大 。 联 合式 实体 识别 就 是 相互 关联 的 不 同 数据 对 象 
的 识别 结果 的 相互 影响 ， 通 过 相似 度 传递 ， 同 时 对 多 种 类 型 的 数据 对 象 进行 实体 识别 ， 主 要 分 类 为 基于 关系 聚 类 的 联合 式 实体 识别 和 复杂 信 
息 空间 中 的 联合 式 实体 识别 [1 








单 类 型 的 关联 数据 只 包括 一 种 相互 关联 的 数据 对 象 ， 数 据 对 象 间 的 关系 类 型 通常 也 是 单一 的 。 单 类 型 的 关联 数据 构建 出 的 图 是 同 构图 ， 
其 中 同 构 边 表示 同一 种 关系 ， 但 有 不 同 权 重 ， 即 关系 的 强 弱 之 分 。 比 如 ， 在 线 社交 网 络 中 不 同 的 用 户 与 用 户 之 间 的 关系 强度 通常 不 同 ; 学 术 
合作 网 络 中 不 同 作 者 与 作者 之 间 的 合作 次 数 不 同 ， 进 而 合作 的 强度 是 不 同 的 。 通 过 挖掘 数据 对 象 间 的 拓扑 关系 ， 可 以 计算 出 数据 对 象 间 的 关 
联 强 度 ， 即 相似 度 。 实 体 消 歧 或 名 字 消 歧 是 实体 识别 中 一 个 非常 重要 的 子 问题 ， 即 不 同 数据 对 象 拥有 相同 的 名 称 (主要 是 人 名 ) 。 由 于 数据 
对 象 拥有 完全 相同 的 名 称 ， 单 单 通过 属性 信息 无 法 解决 消 歧 的 问题 。 实 体 关系 可 以 帮助 解决 消 歧 的 问题 。 无 论 是 异 构 关系 还 是 同 构 关系 ， 都 
可 以 用 于 计算 数据 对 象 间 的 关联 强度 ， 衡 量 数 据 对 象 的 相似 度 ， 进 而 识别 出 哪些 数据 对 象 描述 相同 实体 或 不 同 实体 。 在 基于 实体 关系 的 消 歧 
研究 中 ， 典 型 工作 有 基于 社交 关系 的 名 字 消 岐 、 基 于 实体 关系 的 实体 消 歧 和 基于 异 构 实体 关系 的 实体 消 歧 !0- “01 


5.2 ”联合 式 实体 识别 方法 


联合 式 实体 识别 中 ， 不 同 数据 对 象 ( 单 一 类 型 或 多 类 型 ) 的 识别 结果 存在 相互 影响 。 联 合 地 识别 多 个 数据 对 象 可 以 提高 实体 识别 的 精确 
性 。 基 于 关系 聚 类 的 联合 式 实体 识别 方法 是 利用 共 现 数据 对 象 的 类 复 相 似 度 进行 迭代 的 关系 聚 类 ， 来 同时 识别 多 个 相互 关联 的 数据 对 象 (如 
合作 者 ) 。 复 杂 信 息 空 间 中 的 联合 式 实 体 识别 方法 是 针对 复杂 的 信息 空间 中 多 类 型 的 数据 对 象 相互 关联 并 且 每 个 数据 对 象 只 具有 较 少 的 属性 
的 特点 ， 提 出 利用 丰富 的 数据 对 象 的 关联 关系 来 帮助 实体 识别 ， 将 一 些 数据 对 象 的 实体 识别 的 结果 传递 到 其 关联 的 数据 对 象 ， 而 且 通 过 实体 


识别 过 程 中 的 信息 增益 来 解决 部 分 数据 对 象 的 属性 信息 不 足 的 问题 。 


5.2.1 基于 关系 聚 类 的 联合 式 实体 识别 方法 


传统 的 实体 识别 主要 基于 记录 的 属性 比较 。 然 而 在 很 多 领域 ， 比 如 社交 网 络 或 学 术 圈 等 ， 实 体 之 间 存在 较 强 的 关联 关系 ， 因 此 它们 对 应 
的 数据 对 象 经 常会 共同 出 现 ， 即 存在 共 现 关系 。 本 节 将 主要 利用 这 种 数据 对 象 之 间 的 共 现 关 系 来 进行 联合 式 实体 识别 ， 即 联合 地 识别 存在 关 
联 关 系 的 不 同 数据 对 象 。Bhattacharya 等 上 -4 提出 一 个 关系 聚 类 算法 ， 迭 代 地 对 数据 对 象 进行 聚 类 ， 聚 类 过 程 利用 了 共 现 数据 对 象 的 类 艇 相 
似 度 。 


1. 一 个 实例 


给 定 一 个 抓 取 自 Web 的 引文 数据 集 ， 现 在 要 构建 一 个 由 文章 、 作 者 和 参考 引用 组 成 的 小 型 数据 库 。 这 种 应 用 需求 在 著名 的 文献 引用 检索 
系统 CiteSeer 中 是 十 分 常见 的 。CiteSeer 是 计算 机 科学 研究 者 的 一 个 重要 资源 库 ， 为 用 户 提供 电子 版 的 科研 论文 。 然 而 ， 大 部 分 CiteSeer 用 
户 会 经 常 遇 到 同一 篇 文章 的 不 同 引文 记录 ， 其 中 不 同 引文 记录 的 对 应 作者 也 没有 被 识别 为 相同 的 作者 。 与 前 面 应 用 类 似 的 一 个 应 用 是 ， 将 来 
自 不 同 数据 源 的 引文 记录 进行 集成 ， 得 到 统一 的 引文 数据 集 ， 要 求 不 重 不 漏 。 


在 上 述 实 例 中 ， 需 要 识别 多 种 类 型 的 数据 对 象 。 首先， 文章 的 实体 识别 是 一 个 最 常见 、 最 基本 的 引文 实体 识别 任务 。 其 次 ， 相 比 于 引文 
识别 来 说 ， 作 者 的 实体 识别 被 研究 得 少 一 些 ， 本 节 将 重点 关注 该 问题 。 下 面 给 出 一 个 具体 的 示例 。 


假设 现在 要 识别 如 下 两 条 引文 记录 : 
@R.Agrawal, R.Srikant.Fast algorithms for mining association rules in large databases.In VLDB-94, 1994. 


@Rakesh Agrawal and Ramakrishnan Srikant.Fast Algorithms for Mining Association Rules.In Proc.of the 20th Int’ | 


Conference on Very Large Databases, Santiago, Chile, September 1994. 


有 时 候 ， 只 要 比较 文章 的 标题 就 可 以 解决 文章 的 实体 识别 问题 ， 即 利用 现 有 的 字符 串 比 较 方法 就 可 以 比较 两 个 标题 。 然 而 ， 可 能 会 存在 
标题 相同 但 非 同一 作者 的 文章 或 标题 书写 错误 的 文章 (如 该 例 ) ， 叶 致 仅 依据 标题 不 能 正确 判断 。 此 时 ， 可 以 利用 引文 记录 中 存在 的 一 些 基 
于 关系 的 信息 ， 比 如 文章 的 作者 、 文 章 所 发 表 的 会 议 以 及 文章 的 参考 文献 等 。 这 些 额外 的 信息 也 可 以 帮助 判断 两 条 引文 记录 是 否 描述 相同 的 


文章 。 


作者 的 识别 比 文章 的 识别 要 更 困难 一 些 。 给 定 两 篇 不 同 的 文章 ， 要 求 判断 两 者 的 作者 中 是 否 存 在 相同 的 作者 。 可 以 直接 对 比 作者 的 字符 
串 相 似 度 ， 然 而 同一 个 人 的 作者 记录 可 能 会 有 多 种 形式 。 最 常见 的 是 第 一 名 字 和 中 间 名 字 的 书写 形式 的 问题 。 比 如 一 个 作者 “Jeffrey David 
Ullman”， 那 么 它 可 能 会 被 写作 “J.D.Ullman”、 “Jeff UllIman”、“Ullman，J.D.” 等 。 还 有 一 种 情况 ， 不 同 的 作者 可 能 有 相近 或 相同 
的 缩写 形式 。 尽 管 “J.D.UllIman” 和 “Jeffrey D.Ullman” 是 比较 容易 被 识别 的 ， 但 是 对 于 包括 常见 姓氏 的 姓名 难以 识别 ， 比 
如 “J.Smith” 和 “X.Wang”， 可 能 是 多 个 不 同 的 全 称 的 缩写 。 


如 图 5-1 中 ， 可 以 利用 合作 者 的 关系 来 识别 作者 数据 对 象 。 如 果 两 个 “J.Smith” 所 属 的 两 篇 文章 的 合作 者 是 相同 的 ， 那 么 这 两 

个 “Jsmith” 是 同一 作者 的 可 能 性 就 会 变 大 。 然 而 ， 为 了 达到 这 个 目的 ， 首 先 得 确保 其 他 作者 的 数据 对 象 是 匹配 的 ， 这 就 变 成 一 个 “ 鸡 生 
蛋 ” 和 “和 蛋 生 鸡 ” 的 问题 。 如 图 5-1 所 示 ， 有 四 个 文章 的 数据 对 象 ， 其 中 每 个 又 包括 了 一 个 题目 和 多 个 作者 数据 对 象 。 图 5-2 是 将 图 5-1 中 所 
有 作者 对 象 都 识别 出 来 后 的 结果 。 起 初 ， 将 包含 Aho 的 数据 对 象 判定 为 匹配 的 ， 因 为 Aho 是 一 个 非常 少见 的 姓氏 ， 那 么 数据 对 象 [[、r4、r6 和 
r8 是 重复 的 数据 对 象 。 然 而 ， 单 靠 名 字 信 息 ， 无 法 确定 所 有 包含 Ullman 的 数据 对 象 (r3、r5、r7 和 r10) 是 否 描述 相同 的 实体 ; 同样 也 无 法 确 
定 包含 Johnson 的 数据 对 象 (r2 和 r9) 是 否 是 重复 的 。 从 关联 关系 角度 来 看 ， 包 含 Aho 的 数据 对 象 的 匹配 增加 了 包含 Ullman 的 数据 对 象 匹配 
的 可 能 性 。 可 以 比较 肯定 地 认定 rs 和 ry 是 匹配 的 ;，r3 和 r10 也 可 能 是 与 rs 和 ry 匹配 的 ， 尽 管 不 像 前 面 那 种 情况 那样 肯定 。 当 只 识别 完 包 合 Aho 
的 数据 对 象 时 ， 没 有 足够 的 信息 来 判定 包含 Johnson 的 数据 对 象 是 否 匹 配 ; 当 识 别 完 包含 Ullman 的 数据 对 象 后 ， 包 含 Johnson 的 数据 对 象 
(r2 和 re) 已 有 两 个 合作 者 是 匹配 的 ， 因 此 ， 可 以 认定 r2 和 rg 是 重复 的 。 






图 5-1 作者 和 文章 的 实体 识别 示例 





注 : 每 个 圆 角 矩形 代表 一 个 文章 数据 对 象 ， 每 个 椭圆 代表 一 个 作者 数据 对 象 。 
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图 5-2 ”图 5-1 中 作者 的 实体 识别 结果 
注 : 图 中 颜色 相同 的 的 圆 表示 相同 实体 。 
可 见 ， 作 者 的 识别 问题 是 一 个 迭代 的 过 程 。 当 识别 出 一 些 数据 对 象 后 ， 它 们 的 识别 结果 有 助 于 产生 更 多 的 识别 结果 。 
对 于 给 定 一 个 数据 对 象 集合 R={r1，r2，.…，rn}， 其 中 每 个 数据 对 象 对 应 一 个 唯一 实体 ,，E (r) E{e1，e2，…，ekj。 数 据 对 象 可 能 被 划 


分 为 多 个 分 组 G6={91，g92，…，9gm}， 每 个 数据 对 象 最 多 出 现在 一 个 分 组 中 。 本 小 节 的 实体 识别 任务 就 是 给 定 R 和 G， 求 得 实体 识别 结果 。 


如 图 5-2 所 示 ， 作 者 姓名 和 作者 与 文章 的 从 属 关系 确定 了 一 个 数据 对 象 ， 比 如 (J.D.Ullman, P1) 对 应 r3。E (r3) =e3，e3 即 实 


体 “Jeffrey David UllIman”。 分 组 就 是 每 篇 文章 的 所 有 合作 者 的 集合 。 假 定 每 篇 文章 对 应 一 个 分 组 ， 即 分 组 和 文章 对 象 之 间 存 在 一 一 映射 
关系 。 比 如 ， 图 5-2 中 P1 的 分 组 为 91={r1，r2，r3}，r1=A.V.Aho，r2=S.C.Johnson，r3=J.D.Ullman。 实 体 识 别 的 目的 就 是 得 到 数据 对 象 和 


实体 的 映射 ，e1: {r1, r4, re, rg}, e2: {r3，r5，r7，r10} 和 e3: {r2, ro}. 


一 个 直观 的 实体 识别 方法 是 将 相似 的 数据 对 象 进行 聚 类 。 聚 类 算法 的 关键 是 数据 对 象 间 的 相似 度 衡 量 。 本 节 将 定义 一 个 包括 对 象 的 属性 
和 关联 关系 的 综合 相似 度 。 数 据 对 象 的 属性 相似 度 衡量 两 者 属性 的 相似 性 ， 如 名 字 的 相似 性 、 工 作 单位 的 相似 性 等 。 基 于 关联 关系 的 相似 度 
则 是 通过 衡量 数据 对 象 所 在 的 分 组 的 相似 性 来 实现 的 。 比 如 ， 两 个 分 组 中 的 一 些 数据 对 象 已 被 识别 为 是 重复 的 ， 那 么 这 两 个 分 组 就 具有 一 定 
的 基于 关联 关系 的 相似 性 。 随 着 实体 识别 的 进行 ， 分 组 间 的 相似 性 可 能 发 生变 化 。 


2. 基 于 关系 聚 类 的 、 和 迭代 的 联合 式 实体 识别 方法 


给 定 两 个 数据 对 象 [ 和 mn， 那么 有 


dup(riy7;) = true, d(risrj) <t (Oed) 


Hh, d () 是 一 个 距离 函数 ， 用 来 判断 数据 对 象 的 相似 性 ， 十 一 个 给 定 的 阔 值 。 式 (5.1) 表示 当 两 个 数据 对 象 的 距离 小 于 t 时 ， 这 两 
个 数据 对 象 是 匹配 的 或 是 重复 的 。 距 离 函 数 是 基于 对 象 属性 的 距离 和 基于 分 组 的 距离 的 加 权 求 和 。 接 下 来 首先 定义 距离 函数 ， 然 后 提出 迁 代 
的 聚 类 算法 来 进行 联合 式 实体 识别 。 

(1) 距离 函数 
两 个 数据 对 象 的 距离 是 
ROY = (1 一 aw) -am Cd Cr) CS. 2) 


其 中 ，dattr () 是 基于 属性 的 距离 ，dgroup () 是 基于 分 组 集合 的 距离 ，o 是 权重 系数 。 基 于 属性 的 距离 可 以 通过 已 有 的 相似 度 函 数 求 


Jù 
g 


给 定 一 个 数据 对 象 r， 分 组 的 集合 G (r) 包括 所 有 [或 者 [的 重复 数据 对 象 所 在 的 分 组 ，G (r) ={glregakr'eg, dup (r, r') }。 将 两 个 
分 组 的 相似 度 定义 为 两 者 所 拥有 的 重复 数据 对 象 数目 占 较 大 分 组 的 大 小 比例 ， 即 








sim(g1,82)= |common(g).g2)|/max(| gı | ,es|) C5..3) 
common(g1.g2)= {(risre) |dup(risr2)9m1 E€ gisre E g2} (5.4) 

那么 ， 基 于 关系 的 距离 为 
(5.5) 


a 24529) = 1— simCe145 22) 


组 g 和 一 个 分 组 集合 G6， 那么 两 者 的 距离 为 


给 定 一 个 分 
/ 
d(g,G) = mngecd Eg ) (5.6) 
给 定 两 个 分 组 集合 G1 和 G2， 那 么 两 者 的 精确 距离 为 
Cie Gi »G> ) = ( >: dg »>Go)/\G |+ > d(g> »G, )/ | G | )/2 
81 EG, 85 EG, 
(5.7) 


根据 式 (5.1) ~ 式 (5.7) 可 知 ， 重 复 的 数据 对 象 的 定义 中 存在 一 个 递归 ， 因 此 它 需要 一 个 迭代 的 过 程 。 随 着 新 的 重复 数据 对 象 的 发 现 ， 
能 会 生成 新 的 重复 数据 对 象 。 将 当前 识别 出 的 重复 数据 对 象 表示 成 类 艇 ,每 一 个 类 簇 中 


这 些 数据 对 象 所 在 的 分 组 的 距离 发 生 了 改变 ， 极 有 可 能 会 
的 数据 对 象 都 描述 相同 的 实体 ， 但 不 同 的 类 簇 也 可 能 描述 相同 的 实体 。 将 每 个 类 簇 与 它 的 所 有 成 员 出 现 的 分 组 关联 起 来 ， 称 为 类 艇 的 分 组 集 


A. 
=E 


Gl) = 20l nE 6&) (5. 8a) 


注意 ， 每 个 类 艇 维护 一 个 所 有 数据 对 象 的 代表 属性 值 。 当 得 到 一 个 类 簇 这 两 个 特征 之 后 ， 就 可 以 将 数据 对 象 的 距离 拓展 到 类 簇 的 距离 。 


每 一 次 进 代 中 ， 聚 类 算法 重新 计算 类 复 之 间 的 距离 ， 然 后 将 距离 最 近 的 类 复 进 行 合并 。 和 迭代 过 程 持续 到 不 能 够 再 进行 类 复 合 并 为 止 。 


分 析 式 (5.2) ~ 式 (5.7) 可 知 ， 精 确 的 分 组 距离 的 计算 代价 非常 大 ， 因 为 需要 针对 这 两 个 类 簇 的 分 组 集合 进行 两 两 比较 。 为 了 降低 计算 
代价 ， 提 出 一 个 近似 的 分 组 距离 计算 方法 。 给 定 一 个 数据 对 象 的 分 组 集合 ， 该 数据 对 象 的 分 组 概况 是 它 的 分 组 集合 中 所 有 唯一 的 数据 对 象 组 
成 的 集合 。 结 合 类 簇 的 定义 ， 类 簇 的 分 组 概况 是 类 艇 的 分 组 集合 中 所 有 唯一 的 类 艇 组 成 的 集合 





Pame) -= {C; Ci 二 S 8j E Gc,)} (5: 8b) 


需要 指出 的 是 ， 式 (5.8b) 中 的 类 艇 只 需要 提供 类 艇 标签 即 可 ， 并 不 需要 提供 整个 类 复 。 类 艇 的 分 组 概况 是 数据 对 象 的 类 复 的 集合 ， 那 
么 可 以 用 分 组 概况 距离 替代 分 组 距离 。 两 个 类 簇 的 分 组 概况 距离 记 作 dgsum。 如 果 分 组 概况 中 的 数据 对 象 按照 它们 的 类 艇 标签 进行 排序 ， 那 


么 分 组 概况 距离 是 实时 可 计算 的 ， 它 将 随 着 分 组 概况 的 长 度 而 线性 增长 。 最 后 ， 将 类 簇 的 分 组 概况 距离 定义 为 类 簇 的 代表 属性 的 属性 距离 
dattr 和 分 组 距离 dgsum 的 线性 组 合 


deng) = Aa) X dat (Gs) +a X dem Cj se) (5. 9) 


(2) 迭代 的 分 组 聚 类 算法 


在 聚 类 算法 初始 时 ， 每 个 数据 对 象 都 是 一 个 单 例 类 艇 ,那么 所 有 的 分 组 概况 的 距离 是 1 (最 大 距离 ) 。 为 了 使 聚 类 算法 冷 启动 起 来 ， 初 
始 时 ， 需 要 利用 纯 属 性 距离 将 一 些 明显 的 重复 数据 对 象 匹配 起 来 。 一 旦 初始 的 非 单 例 类 艇 形成 后 ， 本 节 提 出 的 聚 类 算法 就 可 以 迭代 地 查找 出 
距离 最 近 的 类 簇 对 ， 并 认为 这 些 类 艇 对 表示 相同 的 实体 ， 进 而 对 它们 进行 合并 。 如 式 (5.1) 所 示 ， 在 此 过 程 中 ， 要 用 到 一 个 距离 阔 值 t{。 每 
一 步 迭 代 中 ， 聚 类 算法 重新 计算 候选 类 艇 的 距离 ， 并 从 中 选 出 距离 最 小 的 类 簇 对 进行 合并 ， 然 后 更 新 相应 的 属性 均值 、 分 组 集合 和 分 组 概 
况 。 这 样 的 迭代 过 程 持续 到 所 有 的 候选 类 簇 的 距离 不 再 满足 距离 闪 值 约束 。 


基于 关系 的 、 联 合 的 、 和 迭代 的 聚 类 算法 可 以 提高 实体 识别 的 精确 性 。 然 而 它 是 个 不 断 迭 代 的 过 程 ， 因 此 它 的 计算 代价 要 远大 于 传统 的 、 
基于 属性 距离 的 实体 识别 方法 。 


5.2.2 ”复杂 信息 空间 中 的 联合 式 实体 识别 方法 
传统 的 实体 识别 解决 单 类 型 的 数据 对 象 ， 并 且 假定 这 些 数据 对 象 具有 丰富 的 属性 ， 比 如 引文 记录 。 复 杂 的 数据 空间 四 是 指 多 类 型 的 数据 


类 
对 象 相 互 关联 ， 并 且 每 个 数据 对 象 只 具有 较 少 的 属性 。 联 合式 实体 识别 的 目的 是 ， 同 时 将 多 类 型 的 数据 对 象 都 识别 出 来 ， 即 将 摘 述 相同 实体 
的 数据 对 象 都 找 出 来 。 一 个 基本 的 例子 是 个 人 信息 空间 ， 其 目标 是 为 用 户 提供 个 人 电脑 数据 的 全 局 信息 浏览 。 





1. 一 个 实例 


复杂 信息 空间 中 存在 多 类 型 数据 对 象 ， 每 类 数据 对 象 包 含 一 些 属性 。 这 些 属 性 分 为 两 类 : 一 是 将 简单 数据 类 型 的 属性 称 为 原子 属性 ， 比 
如 字符 串 、 数 值 等 ; 二 是 将 与 其 他 类 型 数据 对 象 的 关联 称 为 关联 属性 。 

联合 式 实 体 识别 示例 如 图 5-3 所 示 。 图 5-3a 呈 现 了 一 个 个 人 信息 管理 应 用 的 关系 模式 的 一 部 分 。 该 关系 模式 包括 四 种 类 型 : 个 人 、 文 
章 、 会 议和 期 刊 。 每 种 类 型 都 包含 一 些 属性 ， 其 中 关联 的 属性 通过 “*” 标注 。 比 如 个 人 有 两 个 原子 属性 name 和 email， 两 个 关联 属性 
emailContact 和 coAuthor， 这 两 个 属性 的 值 都 指向 了 其 他 的 个 人 数据 对 象 ， 分 别 表示 两 个 个 人 之 间 有 电子 邮件 来 往 和 合作 过 文章 。 图 5-3b 
呈现 了 一 个 包含 多 类 型 数据 对 象 的 数据 集 ， 其 中 ， 文 章 数 据 对 象 a1 和 a2， 个 人 数据 对 象 p1 到 p6， 会 议 数据 对 象 c1 和 c2 抽 取 自 两 条 Bibtex 条 
目 ; 其 他 三 个 个 人 数据 对 象 p7 到 po 抽取 自 email 数 据 ， 比 如 p7 名 叫 “Eugene Wong” , email} “eugene@berkeley.edu" ， 有 一 个 邮件 
联系 人 pg。 图 5-3c 是 图 5-3b 正 确 的 实体 识别 结果 。 


Person(name, email, * coAuthor, * emailContact ) 
Article(title, year, pages, * authoredBy. * publishedIn) 
Conference(name, year, location) 


Journal(name, year, volume, number) 


文章 

a; =({ “Distributed query processing in a relational data base system”}. { “169-180”}, 
+ Pow Peds 4G 4) 

a, =({ “Distributed query processing in a relational data base system”}. { “169-180”}, 
s Pss Pets {ces)) 

个 人 

pi=(( “Robert S. Epstein” }, null, (2, p3}, null) 

p:=({ “Michael Stonebraker”). null, {pis p}, null) 


p: =({ “Eugene Wong”), null, {pis p}, null 

p= (í “Epstein, R.S.”}, null, {p;, ps}, null) 

p:=({ “Stonebraker, M.”}, null, {p,,. ps}; null) 

ps=({ “Wong, E.”}, null, {pis ps}. null) 

pb; =({ “Eugene Wong”). { “eugene@berkeley. edu”}, null. {ps }) 


ps=(null, { “stonebraker@csail. mit. edu”}, null. {p;}) 

ps=(( “mike”}, { “stonebraker@csail. mit. edu”), null, null) 

会 议 

cı =({ “ACM Conference on Management of Data”}, { “1978”}, { “Austin, Texas”}) 
co =({ “ACM SIGMOD”}, { “1978”}, null) 


b) 多 类 型 数据 对 象 





by {Poo pss pss Pods {bss Pss pr}, {ers co}) 
c) 正确 的 识别 结果 





图 5-3 ”联合 式 实 体 识别 示例 
从 图 5-3 所 示 样 例 可 知 ， 该 类 实体 识别 问题 具有 如 下 典型 特点 。 首 先 ， 一 些 数据 对 象 的 属性 信息 不 全 ， 即 只 包含 少量 的 原子 属性 。 比 
如 ， 个 人 数据 对 象 只 包括 一 、 两 个 属性 ， 图 5-3b 中 数据 对 象 ps 到 pg 没有 相同 的 属性 (实际 两 者 描述 相同 的 实体 ) 。 其 次 ， 有 些 属性 是 多 值 类 
型 的 ， 因 此 如 果 两 个 数据 对 象 的 某 些 属性 值 不 相同 ， 并 不 意味 着 两 个 数据 对 象 是 不 匹配 的 。 比 如 ， 描 述 相同 的 个 人 的 两 个 数据 对 象 的 email 
可 能 是 完全 不 同 的 。 在 实体 随 着 时 间 发 生 演化 的 应 用 中 ， 这 种 情况 非常 普遍 。 由 于 这 两 种 情况 的 存在 ， 传 统 的 实体 识别 方法 在 处 理 这 样 的 数 
据 时 ， 实 体 识 别 的 精确 性 比较 差 。 为 此 ， 提 出 面向 复杂 信息 空间 的 联合 式 实体 识别 方法 。 


2. 面 向 复杂 信息 空间 的 联合 式 实体 识别 方法 
(1) 方法 概述 


Dong 等 提出 一 个 面向 复杂 信息 空间 的 联合 式 实体 识别 算法 (Joint Entity Resolution in Complex Information Space, JER- 


CIS) 癌 ， 其 基本 思想 是 利用 丰富 的 数据 对 象 的 关联 关系 来 帮助 实体 识别 ， 并 迭代 地 处 理 整个 过 程 。 首 先 ， 利 用 数据 对 象 的 各 种 各 样 的 上 下 
文 信息 进行 数据 对 象 匹配 ; 之 后 ， 将 一 些 数 据 对 象 的 实体 识别 的 结果 传递 到 其 关联 的 数据 对 象 ， 实 现 匹 配 传播 。 当 两 个 数据 对 象 匹配 后 ， 将 
它们 的 属性 值 分 别 组 成 属性 值 集 合 ， 产 生 数 据 对 象 信息 增益 ， 以 此 来 解决 部 分 数据 对 象 的 属性 信息 不 足 的 问题 ， 进 而 提升 后 续 数据 对 象 的 匹 


配 准 确 性 。 举 例 说 明 如 下 。 


数据 对 象 匹 配 : 利用 数据 对 象 的 各 种 各 样 的 上 下 文 信息 来 帮助 实体 识别 ， 传 统 的 实体 识别 并 没有 考虑 这 些 方面 。 比 如 ， 考 虑 个 人 数据 对 
象 的 合作 者 列表 和 email 联 系 人 列表 。 图 5-3 中 ，p5 与 p6 合 作 了 文章 ，p8 与 p7 有 email 联 系 。 如 果 已 经 识别 出 p6 与 p7 是 匹配 的 ， 那 么 为 p5 与 
ps 的 匹配 提供 了 新 的 证 据 。 另 外 ， 还 将 比较 不 同属 性 的 值 。 比 如 ， 姓 名 “tonebraker，M.” 和 email 地 
HE “stonebraker@csail.mit.edu" 是 密切 相关 的 : “stonebraker” 是 “stonebraker，M.” 的 姓 。 这 些 信息 有 助 于 匹配 p5 与 p8。 当 匹配 
了 两 个 数据 对 象 后 ， 后 续 还 有 两 个 步骤 可 以 利用 匹配 的 信息 : 匹配 传播 和 数据 对 象 信息 增益 。 


匹配 传播 : 当 两 个 数据 对 象 匹 配 之 后 ， 接 下 来 优先 考虑 与 这 两 个 数据 对 象 关 联 的 数据 对 象 。 比 如 ， 文 章 数 据 对 象 a1 和 a2 的 标题 相同 ， 拥 
有 相同 的 作者 ， 发 表 在 相似 的 会 议 上 ， 并 且 页 码 相 同 ， 那 么 可 以 认为 两 者 是 匹配 的 。 一 般 来 说 ， 一 篇 文章 的 作者 集合 是 唯一 的 ， 当 a1 和 a2 匹 
配 后 ，p1 与 p4、pz 与 p5、p3 与 p6 是 分 别 匹配 的 。 同 理 ， 还 可 以 匹配 数据 对 象 c1 和 Cc2。 


数据 对 象 信息 增益 : 当 两 个 数据 对 象 匹 配 后 ， 将 它们 的 属性 值 分 别 组 成 属性 值 集合 ， 这 样 就 会 产生 信息 增益 。 比 如 ， 考 虑 个 人 数据 对 象 
p5 与 p8。 尽 管 “Sstonebraker，M.” 和 “stonebraker@csail.mit.-edu” 非 常 相似 ， 这 些 信息 还 不 足以 匹配 p5 与 p8。 同 理 ，p5 与 p9 也 缺乏 
足够 的 信息 来 匹配 。 然 而 ， 当 pg 与 pg 匹配 后 ， 将 它们 的 信息 进行 聚集 后 可 知 ，“mike” 和 “Stonebraker，M.” 的 名 字 的 首 字母 是 相同 
的 ， 并 且 有 相同 的 email 联 系 人 或 合作 者 。 这 些 额 外 的 信息 可 以 帮助 识别 出 ps5、psg 和 和 po。 


总 之 ，JER-C1S 方 法 通过 挖 气 上 下 文 信息 、 匹 配 传播 和 数据 对 象 信息 增益 得 到 更 精确 的 实体 识别 结果 。 另 外 ， 还 可 以 判定 出 两 个 数据 对 
象 绝对 不 匹配 的 情况 ， 并 定义 一 个 依赖 图 来 描述 数据 对 象 相似 度 和 属性 相似 度 的 依赖 关系 。 


(2) 联合 式 实体 识别 算法 


JER-CIS 方 法 的 流程 如 下 : @@ 构 建 依赖 图 来 体现 不 同 匹配 对 象 之 间 的 相互 关系 ; @ 和 迭代 地 计算 依赖 图 中 结 点 (一 个 结 点 对 应 一 对 数据 对 
象 ) 的 分 值 ， 直 到 收敛 状态 ;@@ 通 过 传递 闭 包 计算 最 终 的 识别 结果 。 


接 下 来 依次 介绍 依赖 图 构建 、 依 赖 图 挖掘 、 数 据 对 象 信息 增益 和 数据 对 象 相似 度 计 算 。 
1) 依赖 图 构建 。 
@ 依 赖 图 定义 。 


为 了 进行 实体 识别 ， 需 要 计算 同类 型 的 数据 对 象 的 两 两 相似 度 ; 数据 对 象 的 相似 度 基于 原子 的 属性 相似 度 和 关联 的 属性 相似 度 。 该 方法 
基于 依赖 图 计算 数据 对 象 的 相似 度 。 


给 定 一 个 数据 对 象 集合 R，R 的 依赖 图 是 一 个 无 向 图 G= (N，E) ， 满 足下 述 条 件 : 

a. 对 于 同类 型 的 任意 两 个 数据 对 象 [|，r2eR， 图 G6 中 存在 一 个 结 点 m= (r1，r2) 。 

b. 对 于 r1 和 r2 的 每 一 对 属性 a1、a2， 图 G 中 存在 一 个 属性 结 点 n= (a1，a2) ,并且 m 和 |n 之 间 存 在 一 条 边 。 
Cc 每 个 结 点 有 一 个 数据 值 型 的 相似 度 ( 介 于 0 和 1 之 间 ) ， 记 作 sim (r4, r2) 或 sim (m) 。 


基于 依赖 图 中 的 一 个 结 点 表示 一 对 数据 对 象 的 相似 度 ， 一 条 边 表示 一 对 相似 度 的 依赖 性 ， 即 一 对 数据 对 象 相似 度 依赖 于 它们 各 自 属 性 的 
相似 度 ， 反 之 亦 然 。 当 一 个 结 点 的 相似 度 发 生 改变 时 ， 就 需要 重新 计算 它们 邻居 的 相似 度 。 


接 下 来 ， 将 数据 对 象 及 其 属性 都 称 为 元 素 。 对 于 每 一 对 元 素 ， 依 赖 图 中 都 存在 唯一 的 结 点 与 之 对 应 。 这 种 唯一 性 对 于 挖 所 匹配 决定 之 间 
的 依赖 关系 非常 重要 。 


@ 依 赖 图 优化 策略 。 


在 实践 中 ， 如 果 为 任意 两 个 元 素 都 构建 一 个 相似 度 结 点 ， 既 开销 巨大 ， 又 没有 必要 。 因 此 ， 只 为 可 能 匹配 的 数据 对 象 对 构造 结 点 ， 或 为 
可 比较 且 较 相似 的 属性 值 构造 结 点 〈 即 相同 的 属性 ， 或 根据 领域 知识 判断 为 可 比较 的 属性 ， 如 姓名 和 emai) 。 依 赖 图 的 优化 基于 领域 知 


R, 


由 领域 专家 完成 或 通过 训练 数据 学 习 。 具 体 优化 策略 如 下 。 


优化 策略 1: 生成 原 依赖 图 的 一 个 子 图 。 子 图 中 ， 从 结 点 n 到 m 之 间 存 在 一 条 边 ， 仪 当 m 的 相似 度 真正 依赖 于 n 的 相似 度 。 将 n 称 为 m 的 入 


邻居 ，m 是 n 的 出 邻居 ， 这 样子 图 就 是 有 向 的 。 


上 不 
ER 


优化 策略 2: 划分 不 同类 型 的 依赖 关系 。 首 先 ， 将 依赖 分 为 布尔 型 依赖 和 数值 型 依赖 。 如 果 结 点 n 的 相似 度 只 依赖 于 结 点 m 中 的 数据 对 象 
匹配 ， 那 么 称 m 是 n 的 布尔 型 邻居 。 同 理 ， 结 点 n 的 相似 度 依赖 于 结 点 m 的 实际 的 相似 度 ， 那 么 称 m 是 n 的 数值 型 邻居 。 比 如 ， 图 5-3 中 两 


个 会 议 数据 对 象 c1、c2 依 赖 于 它们 名 字 的 相似 度 。 同 时 ， 它 们 的 相似 度 依赖 于 文章 a1、a2 是 否 匹 配 ， 而 不 是 它们 实际 的 相似 度 。 


将 布尔 型 邻居 再 细 分 为 两 类 : 如 果 m 中 的 两 个 数据 对 象 匹配 会 导致 n 中 的 两 个 数据 对 象 也 匹配 ， 那 么 将 m 称 为 n 的 强 布尔 型 邻居 ; 如 果 m 


中 的 两 个 数据 对 象 匹 配 只 是 会 增加 n 中 的 两 个 数据 对 象 匹 配 的 可 能 性 ， 那 么 将 m 称 为 n 的 弱 布尔 型 邻居 。 


@@ 依 赖 图 构建 。 
通过 两 个 步骤 来 构造 依赖 图 : 第 一 步 考虑 原子 属性 ， 第 二 步 考虑 关联 属性 。 
步骤 1: 对 于 任何 两 个 同类 型 的 数据 对 象 ， 构 造 一 个 结 点 m (r1，r2) ， 其 相似 度 为 0。 


a. 对 于 r1 和 r2 的 任何 一 对 原子 属性 值 a1 和 a2， 如 果 它们 是 可 比较 的 ， 进 行 如 下 操作 : 
“ 如果 n= (a, a) ! 《G， 计 算 ait 和 az 的 相似 度 。 如 果 该 相似 度 足 够 大 ， 将 n 及 其 相似 度 加 入 到 图 G 中 。 
当 相互 依赖 关系 存在 时 ， 添 加 从 n 到 和 的 边 和 从 mm 到 n 的 边 。 

b. 如 果 m 没 有 任何 邻居 ， 删 除 m 及 其 关联 的 边 。 


步骤 2: 两 个 数据 对 象 [[、r2，m= (r4, r2) EG。 对 于 这 两 个 数据 对 象 的 每 一 对 关联 属性 ，r1 的 a1 和 r2 的 a2， 如 果 存 在 结 点 
(a1，a2) 且 m 和 n 之 间 存 在 依赖 关系 ， 进 行 如 下 操作 : 


a. 如 果 a1=a2， 那 么 如 果 结 点 n= (a1, ar) 不 存在 ， 增 加 该 结 点 并 增加 从 n 到 m 的 边 。 
b. 如 果 a1#a2， 并 且 结 点 n= (a1, a2) 存在 ， 当 相互 依赖 存在 时 ， 增 加 从 n 到 m 的 边 和 从 m 到 n 的 边 。 
图 5-3b 对 应 的 依赖 图 如 图 5-4 所 示 。 
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图 5-4 ”图 5-3b 对 应 的 依赖 图 


JER-CIS 方 法 是 基于 依赖 图 中 的 结 点 间 的 相似 度 传递 。 比 如 ， 当 文章 a1、a2 匹 配 后 ， 接 下 来 应 该 匹配 与 它们 关联 的 会 议 c1、c2; 然后 ， 
重新 计算 包含 了 会 议 C1、c2 的 其 他 文章 的 相似 度 。 依 赖 图 包含 了 所 有 相似 度 的 依赖 关系 ， 它 可 以 引导 重新 计算 的 过 程 。 
依赖 图 中 的 结 点 状态 包括 匹配 的 、 活 路 的 和 不 活跃 的 。 当 一 个 结 点 的 相似 度 超 过 给 定 的 匹配 阐 值 ， 那 么 它 的 状态 将 是 匹配 的 ， 表 示 两 个 


数据 对 象 已 被 识别 为 匹配 的 。 如 果 两 个 数据 对 象 的 相似 度 需要 重新 计算 ， 那 么 它 的 状态 是 活路 的。 其 他 结 点 的 状态 是 不 活跃 的 。JER-CIS 方 
法 按 下 面 步骤 执行 ， 直 到 不 人 存在 活跃 的 结 点 。 


步骤 1: 初始 时 ， 将 所 有 代表 数据 对 象 相似 度 的 结 点 标记 为 活跃 的 状态 。 将 原子 属性 的 相似 度 的 结 点 根据 其 关联 的 相似 度 将 它们 标记 为 
匹配 的 或 不 活跃 的 。 


步骤 2: 每 次 选择 一 个 活跃 的 结 点 ， 重 新 计算 它 的 相似 度 。 如 果 新 的 相似 度 大 于 阔 值 ， 将 它 标记 为 匹配 的 ; 否则 ， 将 它 标记 为 不 活跃 
的 。 另 外 ， 将 它 所 有 相似 度 小 于 1 的 邻居 标记 为 活跃 的 。 


上 述 过 程 在 满足 下 面条 件 时 将 一 定 会 终止 : 条 件 一 ， 所 有 结 点 的 相似 度 函 数 随 着 它 的 入 邻居 的 相似 度 单 调 变化 ; 条 件 二 ， 只 有 当 给 定 结 
点 的 相似 度 增加 量 达到 一 定 程度 ， 才 会 激活 它 的 邻居 。 


将 依赖 图 的 边 进行 分 类 后 ，JER-CIS 方 法 在 步骤 2 中 就 不 必 将 一 个 结 点 的 所 有 邻居 结 点 都 激活 ， 从 而 大 大 降低 了 重新 计算 相似 度 的 代价 。 
具体 来 讲 ， 当 一 个 结 点 n 的 相似 度 增加 后 ， 进 行 如 下 操作 : 

@ 将 它 的 数值 型 出 邻居 结 点 中 相似 度 低 于 1 的 都 激活 。 

@ 如 果 结 点 n 中 的 数据 对 象 被 识别 为 匹配 的 ， 将 它 的 布尔 型 出 邻居 结 点 中 相似 度 低 于 1 的 都 激活 。 


此 外 ， 一 个 好 的 重新 计算 顺序 可 以 进一步 降低 重新 计算 的 次 数 ， 提 高 算法 的 效率 。JER-CIS 方 法 采用 了 如 下 的 启发 式 思想 : 


@@ 只 有 当 一 个 结 点 的 所 有 数值 型 入 邻居 结 点 (不 包括 相互 依赖 的 结 点 ) 计算 出 来 后 ， 才 计算 该 结 点 的 相似 度 。 比 如 ， 在 比较 两 个 文章 对 
象 前 ， 必 须 先 比较 与 它们 关联 的 作者 和 会 议 。 


@ 当 一 个 结 点 被 判定 为 匹配 的 ， 后 续 首先 计算 它 的 强 布尔 型 出 邻居 结 点 。 

为 此 ， 维 护 了 一 个 活跃 结 点 组 成 的 队列 。 初 始 时 ， 队 列 包 括 了 所 有 数据 对 象 相似 度 结 点 ， 一 个 结 点 一 定 排 在 它 的 数值 型 出 邻居 结 点 的 前 
面 ， 除 非 它 们 是 相互 影响 的 关系 。 每 一 次 迭代 中 ， 选 择 队 首 的 结 点 进行 相似 度 计 算 。 当 激活 一 个 结 点 的 数值 型 或 弱 布尔 型 出 邻居 结 点 时 ， 将 
它们 插入 到 队 尾 ; 当 激活 一 个 结 点 的 强 布尔 型 出 邻居 结 点 时 ， 将 它们 插入 到 队 首 。 


观察 图 5-4， 初 始 时 ， 队 列 包括 结 点 tm5，m4，m3，m2，m1}， 结 点 n1、n2、n7 被 标记 为 匹配 的 。 接 下 来 依次 计算 结 点 m5、m4、 
m3、m2、m1 的 相似 度 。 当 文章 对 象 a41、a2 被 判定 为 匹配 时 ， 将 结 点 m2、m3、m4、ms 重 新 插入 到 队 首 ， 此 时 队列 变 为 
{m5，m4，m3，m2} (其 中 结 点 的 顺序 可 以 是 任意 的 ) 。n2 没 被 插入 到 队 尾 ， 因 为 它 不 是 m1 的 出 邻居 ， 并 且 它 的 相似 度 已 经 达到 1。 下 一 


步 ， 当 ms 中 的 会 议 c1、c2 匹 配 后 ， 将 它 的 强 布尔 型 出 邻居 结 点 ne 插入 到 队 首 ， 此 时 队列 变 为 {fn6，m4，m3，m2}。 上 述 过 程 持续 进行 ， 直 
到 队列 为 空 。 


3) 数据 对 象 信息 增益 。 


JER-CIS 方 法 另 一 个 特点 是 ， 在 实体 识别 过 程 中 增加 数据 对 象 的 信息 量 。 当 数据 对 象 r[|、r2 匹 配 后 ，r2 所 有 的 属性 也 可 以 看 作 r1 的 属性 。 
比如 ， 如 果 r1 有 email 地 址 “stonebraker@csail.mit.edu”，r2 有 email 地 址 “stonebraker@ mit.edu”， 那 么 真实 世界 的 对 应 实体 必定 同 
时 拥有 这 两 个 email 地 址 。 接 下 来 ， 当 计算 r+ 和 另外 一 个 数据 对 象 r3 的 相似 度 时 ， 将 这 两 个 email 地 址 同时 与 r3 的 email 地 址 比较 ， 并 从 中 选择 
一 个 较 高 的 相似 度 。 

一 个 朴素 的 数据 对 象 信息 增益 的 方法 是 运行 传播 算法 ， 然 后 计算 传递 闭 包 ,合并 同一 个 类 簇 内 的 所 有 数据 对 象 ， 不 断 重复 上 述 过 程 。 然 
而 ， 可 以 通过 只 在 小 范围 内 修改 依赖 图 来 实现 信息 增益 。 当 匹配 完 r1/、r2 后 ， 找 出 满足 条 件 的 r3， 即 存在 这 样 的 结 点 m= (r1，r3) 和 
n= (r2, r3) 。 接 下 来 从 依赖 图 中 移 除 结 点 n: 首先 将 n 的 邻居 结 点 与 m 相 连 ， 并 保留 所 有 的 边 的 方向 ; 然后 从 依赖 图 中 移 除 结 点 n 及 所 有 与 


它 关 联 的 边 ， 并 从 队列 中 移 除 结 点 n; 最 后 如 果 m 获 得 了 新 的 入 邻居 结 点 ， 并 且 m 在 队列 中 的 状态 为 不 活跃 的 ， 将 m 插 入 到 队 尾 ， 同 理 ， 如 果 
n 的 邻居 结 点 获得 了 新 的 入 邻居 结 点 并 且 是 不 活跃 的 ， 将 它 插入 到 队 尾 。 图 5-5 呈 现 了 图 5-4 中 相似 度 重 新 计算 的 过 程 。 
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c) 
图 5-5 ”数据 对 象 信息 增益 示例 
4) 数据 对 象 相似 度 计 算 。 


JER-CIS 方 法 中 的 数据 对 象 相似 度 计算 函数 是 特别 定义 的 。 给 定 一 个 结 点 m= (ry, ro) ，m 的 相似 度 函数 把 它 的 所 有 邻居 结 点 当 作答 
入 ， 最 后 计算 出 一 个 介 于 0 和 1 之 间 的 相似 度 。 本 节 介绍 的 相似 度 函数 包括 了 一 些 可 以 调节 的 参数 ， 这 些 参数 可 以 通过 训练 得 到 ， 也 可 以 通过 
实验 测定 。 由 于 本 节 提出 的 算法 可 以 在 不 同 的 结 点 之 间 传 播 信息 ， 传 播 过 程 中 也 可 能 将 错误 的 匹配 信息 传播 ， 从 而 导致 了 更 多 错误 的 匹配 结 
果 。 为 此 ， 将 选择 保守 的 相似 度 函 数 和 匹配 阔 值 ， 从 而 保证 了 较 高 的 匹配 准确 率 ; 同时 通过 利用 丰富 的 匹配 证 据 来 提高 识别 结果 的 召回 率 。 

一 对 元 素 的 相似 度 S 由 三 部 分 组 成 : Sn 来 自 于 数值 型 入 邻居 ，Ssb 来 自 于 强 布尔 型 入 邻居 ，Swt 来 自 于 弱 布尔 型 入 邻居 。 当 三 者 的 和 超过 
1 时 ， 将 其 重 置 为 1。S 必 定 介 于 0 和 1 之 间 。 接 下 来 依次 介绍 这 三 种 相似 度 。 


给 定数 值 型 入 邻居 的 相似 度 ， 通 过 一 个 线性 组 合 来 计算 3 的 公式 


S = Dike Ke (5. 10) 


i 二 1 


其 中 ，n 是 不 同类 型 的 数值 型 入 邻居 结 点 的 数目 (如 email 相 似 度 、 姓 名 相似 度 等 ) ，x 是 类 型 为 Ti 的 元 素 的 相似 度 ， 入 是 相应 的 权重 。 比 
如 ， 一 个 人 的 数据 对 象 的 结 点 相似 度 将 姓名 的 相似 度 、email 的 相似 度 和 姓名 -email 相 似 度 线性 组 合 起 来 得 到 。 
Sr 的 计算 方法 与 传统 的 实体 识别 相似 度 计算 大 体 相同 ， 但 存在 一 些 差异 : @ 由 于 一 些 数 据 对 象 存 在 属性 缺失 的 情况 ， 因 此 ， 采 用 一 组 相 


似 度 冰 数 而 不 是 一 个 ，@ 相 似 度 函 数 会 重点 考虑 一 些 可 以 作为 键 的 属性 ， 比 如 如 果 两 个 人 的 email 地 址 相同 ， 那 么 ， 即 便 它们 的 其 他 属性 存 
在 差异 ， 它 们 也 是 匹配 的 ，@ 相 似 度 函 数 考虑 了 不 匹配 的 邻居 结 点 。 


如 果 结 点 m 的 强 布尔 型 邻居 中 存在 匹配 的 ， 除 非 m 中 的 两 个 数据 对 象 的 原子 属性 差异 过 大 ， 否 则 m 应 该 也 是 匹配 的 。 比 如 ， 当 匹配 了 两 
篇 文章 后 ， 那 么 对 应 的 、 名 字 相 近 的 作者 也 应 该 匹配 。 然 而 ， 为 了 防止 被 噪音 信息 误导 ， 将 保守 地 计算 Ssb。 








{BX | Noa | oe = Ley 
b — 4 


(5.11) 
[0 其 他 


其 中 ，B 是 一 个 常量 ，|Nsb| 为 匹配 的 强 布尔 型 入 邻居 结 点 的 数目 ，trv 是 判断 两 个 数据 对 象 是 否 可 能 匹配 的 下 限 阔 值 。 当 两 个 数据 对 象 的 
Sm 比较 低 时 (但 大 于 trv) ， 只 有 它们 的 多 个 强 布尔 型 邻居 结 点 匹配 后 ， 才 会 认为 这 两 个 数据 对 象 是 匹配 的 。 


Swb 与 Ssb 相 近 ， 具 体 定义 如 下 


(y X | No | Die ee by 
Sw = 4 (5. 12) 
lo 其 他 


其 中 ，Y 是 一 个 常量 ，|Nwb| 为 匹配 的 弱 布 尔 型 入 邻居 结 点 的 数目 ，Y 要 远 小 于 B。 比 如 ， 共 同 的 email 联 系 人 属于 弱 布尔 型 ， 它 可 以 增加 
匹配 的 可 能 性 ， 但 远 不 如 强 布尔 型 入 邻居 那么 大 。 


5.3 ”基于 实体 关系 的 消 歧 方法 


实体 消 歧 或 名 字 消 歧 是 实体 识别 中 一 个 非常 重要 的 细 分 问题 。 由 于 不 同 数据 对 象 拥有 完全 相同 的 名 称 (主要 是 人 名 ) [10 201， 单单 通 过 
属性 信息 无 法 解决 消 层 的 问题 。 实 体 关系 可 以 帮助 解决 消 歧 的 问题 。 在 5.3.1 节 基于 社交 关系 的 名 字 消 歧 中 ， 介 绍 两 种 方法 : @ 基 于 精确 的 名 
字 相 似 度 ， 每 个 数据 源 被 当 作 一 个 局 部 网 络 ， 然 后 对 数据 源 进行 层次 聚 类 ， 达 到 名 字 消 歧 的 目的 ，@ 在 一 个 全 局 的 社交 网 络 中 通过 随机 游 走 
来 估计 数据 对 象 间 的 相似 度 ， 进 而 通过 网 络 切割 来 进行 名 字 消 岐 。 在 5.3.2 节 基于 实体 关系 的 实体 消 歧 中 ， 提 出 上 下 文 吸引 准则 来 计算 数据 对 
象 的 关联 强度 ， 从 而 进行 实体 消 歧 。 具 体 来 讲 ， 先 利用 上 下 文 吸引 准则 来 构建 实体 关系 方程 组 :然后 ， 利 用 非 线性 规划 来 求 边 的 权重 ， 即 实 
体 关联 强度 。 在 5.3.3 节 基于 异 构 实体 关系 的 实体 消 歧 中 ， 将 互补 的 近邻 元 组 的 集合 相似 度 和 基于 随机 游 走 的 相似 度 组 合 起 来 用 于 衡量 数据 对 
象 间 的 相似 度 ; 接着 ， 采 用 一 个 合成 的 层次 聚 类 算法 来 进行 实体 消 岐 ; 最终， 描述 相同 实体 的 数据 对 象 归 入 相同 的 类 簇 ， 描 述 不 同 实体 的 数 
据 对 象 归 入 不 同 的 类 簇 。 


5.3.1 ”基于 社交 关系 的 名 字 消 收 方 法 


名 字 消 歧 是 实体 识别 的 一 种 特殊 情况 。 日 常生 活 中 ， 常 常 存在 多 个 人 有 相同 名 字 的 情况 ， 比 如 “George Bush”。 当 一 个 读者 在 文献 中 
遇 到 “George Bush” 时 ， 他 可 能 会 疑惑 这 个 名 字 是 代表 “George H.W.Bush” 一 一 第 41 届 美国 总 统 ， 还 是 “George W.Bush” 一 一 第 43 
届 美 国 总 统 ， 或 者 是 其 他 人 。 名 字 消 层 就 是 确定 出 某 个 名 字 指 代 的 是 哪个 人 。 传 统 的 名 字 消 歧 方 法 基于 语 料 分 析 和 个 人 信息 ， 然 而 ， 在 很 多 
应 用 中 ， 这 些 信 息 并 不 可 用 。 


Malin 提 出 基于 社交 关系 的 名 字 消 层 方法 Malin-NDI10，11]。 该 方法 可 以 计算 出 : @ 一 个 名 字 总 共 指 代 多 少 不 同 的 实体 ( 即 人 ) ; O 
些 数据 对 象 指 代 相 同 的 实体 。 一 个 实体 名 字 通 常会 出 现在 不 同 的 数据 源 ， 每 次 都 会 与 其 他 的 实体 名 字 共 同 出 现 ， 这 样 就 可 以 构建 出 实体 名 字 


关系 网 络 。 


实体 是 名 字 消 歧 的 一 个 基本 概念 。 本 节 设 定 中， 实体 集 是 未 知 的 ， 记 作 E={e1，e2，…，ekj。 描 述 不 同 实体 的 数据 对 象 (BIBS) 可 能 
会 出 现在 不 同 数据 源 中 ， 记 作 S={s1，s2，.…，sm}， 其 中 每 个 数据 源 中 包括 了 一 组 数据 对 象 Ni。 比 如 ， 可 以 将 一 个 网 页 看 作 一 个 数据 源 。S 中 
所 有 唯一 名 字 组 成 的 集合 记 作 N={n1，n2，…， mj=N1UN2U.…UNm。 一 个 数据 对 象 可 能 对 应 多 个 实体 ， 因 此 称 之 为 歧义 的 。 如 果 一 个 数 
据 对 象 可 能 指 代 k 个 不 同 实体 ， 称 之 为 K- 歧 义 。 如 图 5-6 所 示 ， 数 据 对 象 “Alice” 可 以 指 代 Source1 中 的 entity1 和 Source3 中 的 entity3。 


Bob Bob Bob 


Source, Source, Source, 


Bob 是 1- 歧义 ，Alice 2 HS 


图 5-6 上 -歧义 示例 


Malin-ND 包 括 两 个 方法 : @Malin-ND-1 方 法 基于 精确 的 名 字 相 似 度 ， 每 个 数据 源 被 当 作 一 个 局 部 网 络 ， 然 后 对 数据 源 进行 层次 聚 类 ; 
@Malin-ND-2 方 法 在 一 个 全 局 的 社交 网 络 中 通过 随机 游 走 来 估计 数据 对 象 间 的 相似 度 。 

(1) 基于 层次 聚 类 的 名 字 消 歧 方 法 

Malin-ND-1 方 法 通过 层次 聚 类 来 名 字 消 歧 。 将 每 个 数据 源 表示 成 一 个 布尔 型 向 量 si= [ni1，niz，…，nil， 其 中 如 果 名 字 nj 出 现在 数据 源 
si 中 ， 那 么 nij=1; 否则 nj=0。 层 次 聚 类 过 程 中 ， 采 用 均值 关联 策略 。 每 个 待 聚 类 的 数据 源 都 被 初始 化 为 一 个 单 例 类 艇 。 两 个 类 簇 ci、c 的 相 
似 度 记 作 csim (ci, cj) 





e le; |) e > sesimi st) (5.13) 


s€ C; te cj 


esim(c¢;,¢c;) = (le 


其 中 ， 两 个 数据 源 si、s 的 相似 度 记 作 ssim (sj, sj) ， 可 以 通过 合适 的 相似 度 函 数 计算 。Malin 采 用 了 两 个 向 量 的 Cosine 相 似 度 





ssim(si,5;) = ——— (5.14) 
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Malin-ND-2 ABT RENAE TAA. EPEE A E FAAR AAE CEAT ARNA 
据 对 象 的 数据 源 。 这 个 特点 有 助 于 挖掘 弱 关 联 ， 从 而 帮助 发 现 图 中 的 社区 结构 。 


给 定 一 组 数据 源 9， 通 过 下 面 的 步骤 构建 社交 网 络 。s 中 唯一 的 数据 对 象 对 应 社交 网 络 中 的 一 个 结 点 。 如 果 两 个 名 字 至 少 共 同 出 现在 一 个 
数据 源 ， 则 对 应 的 结 点 之 间 存 在 一 条 边 。 边 的 权重 与 数据 源 中 的 数据 对 象 数目 成 反比 


>, ae 


w; = <2 — (1:15) 
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其 中 ， 如 果 结 点 j 科 j 共 同 出 现在 数据 源 s 中 ， 则 6ijk=1， 否 则 6ijk=0。 如 果 一 个 数据 源 中 的 数据 对 象 越 少 ， 那 么 该 数据 源 中 数据 对 象 的 关联 
关系 越 强 。 比 如 ， 第 一 个 网 页 中 列 出 了 一 个 学 校 中 所 有 的 学 生 、 老 师 和 教工 ， 而 第 二 个 网 页 列 出 了 某 个 机 器 学 习 课程 的 选修 学 生 ， 那 么 第 二 
个 网 页 中 的 关联 关系 要 比 第 一 个 网 页 中 的 强 。 


为 了 便于 名 字 消 层 ， 对 社交 网 络 进行 如 下 调整 。 为 每 个 歧义 的 数据 对 象 构建 一 个 独立 的 网 络 。 图 5-7a 是 名 字 Alice 的 网 络 ， 在 这 个 网 络 
中 ，Gil 通 过 Dan 和 Fran 与 Alice 间 接地 关联 起 来 。 








图 5-7 基于 随机 游 走 的 名 字 消 歧 示 例 


给 定 一 个 社交 了 网络， 在 其 上 运行 随机 游 走 算法 。 一 次 随机 游 走 起 始 于 一 个 歧义 的 结 点 。 从 结 点 a 到 b 的 概率 为 


Pl(a—> bla) = wy | > Wa (5s 16) 


Eh, wien MAmislas ANGUS. TER, P (a>aļa) =0。 


随机 游 走 的 终止 条 件 有 : 四 到 达 了 一 个 歧义 的 结 点 ; @ 达 到 了 最 大 步 数 ，Malin 将 最 大 步 数 设 为 50。 图 5-7b 是 歧义 的 结 点 的 后 验 概率 关 
系 图， 该 图 中 只 包括 层 义 的 结 点 。 结 点 a 和 b 的 相似 度 为 


sim(a,b) = (P(a — b) + P(b — a))/2 CTA 
其 中 ，P (ab) 表示 从 a 出 发 到 达 b 的 概率 。 用 单 连接 (single linkage) KIRSS AREEA TAUIENLLEE, EFA EBENE 


的 边 将 被 移 除 ， 这 样 就 会 形成 多 个 连通 分 量 。 每 个 连通 分 量 指 代 一 个 实体 ， 不 同 的 连通 分 量 指 代 不 同 的 实体 。 


5.3.2 ”基于 实体 天 系 的 实体 消 上 方法 


Kalashnikov 等 人 提出 一 个 基于 实体 关系 的 实体 消 歧 方法 RelDC (Relationship-based Data Cleaning) [12-16]， 该 方法 解决 的 问题 与 
5.3.1 节 中 的 问题 类 似 。 传 统 的 实体 消 歧 方法 通常 是 基于 属性 相似 度 的 ，Kalashnikov 等 人 认为 实体 关系 可 以 进一步 提高 实体 消 歧 的 准确 性 。 
比如 ，“D.White” 可 能 出 现在 某 篇 文章 的 作者 列表 中 ， 而 列表 中 还 包括 了 其 他 作者 ， 这 些 作者 指向 他 们 的 工作 单位 等 。 这 样 就 会 形成 一 连 
串 的 实体 关系 。 这 些 实 体 关系 与 属性 相似 度 结合 起 来 ， 可 以 提高 实体 消 歧 的 准确 性 。 


1. 一 个 实例 


首先 通过 一 个 文章 的 作者 的 示例 来 展示 实体 关系 有 助 于 提高 实体 消 收 的 准确 性 。 给 定 一 个 样 例 数据 集 ， 包 括 作者 数据 对 象 和 文章 数据 对 
象 。 作 者 的 关系 模式 为 (id，authorName，affiliation〉， 文 章 的 关系 模式 为 (id，title，authorRef1，...，authorRefN〉。 这 个 样 例 数 
据 集中 包括 如 下 的 文章 记录 和 作者 记录 : 


文章 记录 : 

(1) (Ay, “Dave White” , “Intel” ) 
(2) (A2, “Don White” , "CMU" ) 
(3) (A3, “Susan Grey” , “MIT” ) 
(4) (A4, “John Black” , “MIT” ) 
(5) (As, “Joe Brown” , null) 

(6) (Ag, “Liz Pink” , null) 

作者 记录 : 


(1) (P4, “Databases...” , “John Black” , “Don White” ) 


(2) (P2, "Multimedia..." , “Sue Grey” , “D.White” ) 


(3) (P3, “Title3...” , “Dave White” ) 

(4) (P4, “Titled...” , “Joe Brown” , “Don White” ) 
(5) (Ps, “Title5...” , “Joe Brown” , “Liz Pink” ) 
(6) (Pe, “Title6...” , “Liz Pink” , “D.White” ) 


就 上 面 的 例子 来 说 ， 实 体 消 歧 的 目标 就 是 把 每 篇 文章 的 authorRef 与 正确 的 作者 对 应 起 来 。 


基于 属性 相似 度 的 方法 通过 比较 作者 数据 对 象 中 的 相关 属性 可 以 解决 大 部 分 的 实体 消 歧 问题 。 例 如 ， 基 于 属性 相似 度 的 方法 可 以 将 P2 中 
AY “Sue Grey” 与 A3 对 应 。 唯 一 的 例外 是 P2 和 P6 中 的 “D.White”， 既 可 能 对 应 A1 ( “Dave White” ) ， 也 可 能 对 应 Az ( “Don 
White”) 。 此 时 ， 基 于 属性 相似 度 的 方法 无 能 为 力 ， 而 利用 一 些 上 下 文 信息 则 可 能 解决 这 个 问题 。 比 如 说 ， 文 章 P1 和 P2 的 标题 比较 相似 ， 
而 文章 P2 和 P3 的 标题 不 太 相似 ， 那 么 文章 P2 中 的 “D.White” 更 可 能 是 文章 P1 中 的 “Don White”。 接 下 来 ， 将 尝试 利用 单纯 的 实体 关系 来 


辨析 Pz 和 Pe 中 的 “D.White”。 


首先 ， 作 者 “Don White” 与 MIT 的 “John Black” 合 作 了 文章 P1， 但 作者 “Dave White” 没 有 与 任何 来 自 MIT 的 作者 合作 过 。 这 一 
情况 有 助 于 解决 我 们 的 问题 。P2 中 的 “D.White” 与 MIT 的 “Susan Grey” 是 合作 关系 ， 那 么 P2 中 的 “D.White” 很 有 可 能 是 “Don 
White”。 究 其 原因 ， 已 有 的 信息 说 明 “Don White” 与 MIT 有 关联 ， 而 “Dave White” 与 MIT 没 有 关联 。 


其 次 , 作者 “Don White” 与 “Joe Brown” 合作 了 文章 P4，“Joe Brown” 与 “Liz Pink” 也 有 合作 关系 。 然 而 “Dave 
White” 5 “Joe Brown”、 “Liz Pink” 都 没有 任何 合作 关系 。 “Liz Pink” 是 文章 Pe 的 作者 之 一 ， 那 么 文章 Pe 中 的 “D.White” 更 可 能 
“Don White”。 已 有 的 信息 说 明 ，“Don White” . “Joe Brown” 和 “Liz Pink” 可 能 研究 相近 的 领域 ， 存 在 合作 关系 。 


各 


乍 看 起 来 ， 上 述 分 析 只 是 一 种 特殊 情况 ， 且 依赖 于 领域 知识 。 但 是 ， 如 果 将 数据 集 看 作 数 据 对 象 的 关系 图 ， 那 么 这 是 一 种 更 一 般 的 准 
则 。 如 图 5-8 所 示 ， 将 上 文 的 样 例 数据 集 构建 一 个 关系 图 ， 其 中 结 点 是 数据 对 象 或 实体 ， 边 表示 对 象 或 实体 间 的 关联 关系 。 文 章 P2 和 Pe 中 
的 “D.White” 通 过 两 个 特殊 的 选择 结 点 与 “Dave White” 和 “Don White” 都 有 关联 。 选 择 结 点 是 图 中 的 一 种 特殊 的 结 点 ， 表 
示 “D.White” 指 向 与 选择 结 点 关联 的 两 个 实体 之 一 。 





图 5-8 实体 消 歧 示例 的 关系 图 
当 得 到 关系 图 后 ， 接 下 来 可 以 通过 上 下 文 吸引 准则 (Context Attraction Principle, CAP) 来 解决 上 例 中 的 实体 消 歧 问题 。 


上 下 文 吸引 准则 (CAP) 是 指 与 实体 x 关联 的 数据 对 象 [ 的 候选 实体 有 y1，y2，.…，yN， 如 果 ! 指 代 某 个 实体 yi;， 那 么 x 与 y 的 关联 强度 应 该 
比 x 与 y| (1=1, 2, . N; | 为 ) 的 关联 强度 更 大 。 


考虑 文章 P2 中 的 “D.White”， 在 实体 关系 图 中 “Don White” 和 P2 之 间 存 在 如 下 路 径 : Po “Susan Grey” 一 MIT 一 “John 
Black” 一 P1 一 “Don White”。 同 理 ， 考 虑 文章 P6 中 的 “D.White”，“Don White” 和 P6 之 间 存 在 如 下 路 径 : Pe 一 “Liz 
Pink” 一 P5 一 “Joe Brown” 一 P4 一 “Don White” , “Dave White” 与 P? 或 P6 之 间 都 不 存在 路 径 (不 考虑 经 过 选择 结 点 的 路 径 ) 。 
此 ， 应 用 上 下 文 吸 引 准 则 可 知 ，P2 和 P6 中 的 “D.White” 都 更 可 能 是 作者 “Don White”。 通 常 来 说 ， 不 仅 Pz (Pe) 与 “Don White” 之 
间 可 能 存在 路 径 ， 而 且 Pz (Pe) 与 “Dave White” 之 间 也 可 能 存在 路 径 。 在 这 种 情况 下 ， 如 果 想 判断 出 “D.White” 对 应 “Don 
White” 还 是 “Dave White” ， 就 需要 计算 “Don White” 或 “Dave White” 与 文章 P2 (Pe) 的 关联 强度 ， 哪 个 关联 强度 更 大 ， 哪 个 就 更 


2. 相 关 概 念 
首先 给 出 候选 实体 集 和 实体 关系 图 概念 ， 之 后 介绍 实体 消 层 问题 。 


用 D 表 示 一 个 数据 集 ， 包 括 待 识别 的 数据 对 象 。D 中 数据 对 象 对 应 的 实体 集合 为 X={x1，x2，…，X|Xj。 每 个 实体 xi 包含 一 组 属性 ， 可 能 对 
应 一 组 数据 对 象 xr1，xir2，…，xirnxi， 总 共 nxi 个 数据 对 象 。 每 个 数据 对 象 xirk 都 有 一 个 唯一 的 描述 形式 ， 包 括 一 个 或 多 个 属性 值 : 
xirkb1，xirkb2，… 比 如 说 ， 前 文中 文章 实体 包含 一 个 属性 authorRef,， 为 (author name) ; 如 果 除 了 作者 ， 还 增加 了 工作 单位 属性 ， 那 


么 文章 实体 的 属性 信息 为 (author name, author affiliation) 。 

1) 候选 实体 集 : 给 定 一 个 数据 对 象 xi.rk， 它 必定 对 应 X 中 的 一 个 实体 ， 记 作 d[xi.rkj。 然 而 ， 根 据 xi.rk 的 字面 信息 ， 它 跟 X 中 的 一 组 实体 都 
有 可 能 匹配 。 将 这 一 组 实体 的 集合 称 为 xi.rk 的 候选 集 ， 记 作 CS[xi.rkl。 候 选集 CS[xi.rk 包 括 了 xi.rk 可 能 指 代 的 所 有 实体 。 候 选集 可 以 通过 基于 
属性 相似 度 的 方法 生成 。 为 了 简化 表达 ， 令 CS[xi.rgd 有 N 个 元 素 y1，y2，.…，yN。 


2) 实体 关系 图 : 将 数据 集 D 看 作 一 个 无 向 的 实体 关系 图 G= (V，E) ，V 是 结 点 集合 ，E 是 边 的 集合 。 每 个 结 点 v[xijj 对 应 一 个 实体 xi， 每 
条 边 对 应 一 个 实体 关系 。 如 果实 体 xi 包括 一 个 实体 x 的 引用 ， 那 么 v[xil 与 v[Xj 间 存在 一 条 边 。 比 如 ， 文 章 P 包 含 了 一 个 作者 A 的 引用 
authorRef， 表 示 A 写 了 P。 

实体 关系 图 中 ， 边 有 权重 ， 结 点 没有 权重 。 边 权重 介 于 0 和 1 之 间 ， 反 上 映 结 点 间 的 关联 强度 。 比 如 ， 前 文中 示例 ， 如 果 已 知 “John 
Black”100% 地 在 MIT 工 作 ， 那 么 就 赋予 他 们 之 间 的 边 权 重 为 1; 但 是 如 果 “John Black” 在 MIT 工 作 的 可 能 性 只 有 80%， 那 么 就 赋予 他 们 之 
间 的 边 权 重 为 0.8。 所 有 的 边 权 重 默 认为 1。 


如 果 CS[xi.rk] 只 包括 一 个 元 素 ， 那 么 将 xi.rk 识 别 为 y1， 并 且 关 系 图 中 v[Xi] 和 v[y1] 将 存在 一 条 边 ， 其 权重 设置 为 |。 如 果 CS[xi.rkj 包 括 多 个 元 


素 ， 那 么 关系 图 中 将 包含 一 个 选择 结 点 cho[xi.rk]， 如 图 5-9 所 示 ， 表 示 d[xi.rkWJ 可 能 是 y1，y2，.…，yN 中 的 一 个 。 结 点 cho[xi.rk] 与 结 点 v[xj] 通 
过 边 eo= (v[xl，cho[xirkdl) 连接 起 来 。 同 时 ， 结 点 cho[xi.rk 也 与 N 个 结 点 v[y1]，v[y2]，.…，v[yN] 连 接 ; 对 于 结 点 y; G=1, 2, .., N), Æ 
在 边 ej= (v[yl，cho[xird) 。 结 点 v[y1]，v[y2]，…，v[yN] 称 为 选择 结 点 cho[xi.rk] 的 候选 项 ， 边 e1，e2，.…，eN 称 为 选择 结 点 cho[xi.rk] 的 候 


选 边 ， 相 应 的 边 权重 称 为 候选 权重 。 边 eo 的 权重 为 1， 边 ej U=1，2，…，N) 的 权重 和 为 1， 即 W1+W2+.…+WN=1。 


CS [xr] PERZ 
的 N 个 结 点 





图 5-9 ”选择 结 点 示例 


3) 实体 消 歧 : 识别 xirk 就 是 从 CS[xirqd 中 选择 一 个 实体 yj， 来 确定 d[xird。 如 果实 体 y 是 实体 消 歧 的 结果 ， 那 么 xirk 锌 识别 为 yj。 如 果 
CS[xirk 中 只 包括 一 个 元 素 y1， 那 么 xirk 自 动 地 被 识别 为 yX1。 如 果 CS[xi.rkl 中 包括 多 个 元 素 ， 那 么 xi.rk 是 未 识别 的 或 不 确定 的 。 从 图 理论 的 角 
度 来 看 ， 识 别 xi.rk 就 是 将 权重 1 赋予 边 y 4j=1，2，…，N) ， 并 将 权重 0 赋予 e1，e2，…，ej-1，ej+1，…，eN。 也 就 是 说 ，d[xirk 为 实体 yj。 

用 Resolve (xi.rk) 来 表示 识别 xi.rk 的 过 程 。Resolve (xi.rk) 就 是 赋予 边 e1，e2，…，eN 不 同 权 重 ， 并 从 中 选择 权重 最 大 的 边 ， 那 么 这 


条 边 对 应 的 结 点 就 是 d[xirkj， 即 yj: Wj=max (wi) ， 其 中 |=1，2，…，N。 


3. 基 于 实体 关系 的 实体 消 歧 方法 一 一 RelDC 


RelDC 方 法 的 输入 是 实体 关系 图 G。 假 定 在 构建 实体 关系 图 G 时 已 经 用 到 了 基于 属性 的 相似 度 方法 ， 因 此 ， 该 方法 是 针对 那些 基于 属性 相 
似 度 方法 无 法 识别 的 数据 对 象 构建 选择 结 点 。 RelDC 方 法 是 通过 挖掘 实体 关系 来 进行 实体 消 层 ， 并 输出 一 个 通过 实体 消 尽 的 实体 关系 图 ， 该 
图 中 不 存在 任何 歧义 的 数据 对 象 。RelDC 方 法 主要 包括 下 面 四 个 步骤 。 

1) 关联 强度 计算 。 对 于 每 个 数据 对 象 xirk， 计 算 xirk 与 它 的 候选 集合 CS[xi.rk 中 每 个 实体 yi 的 关联 强度 c (xi，yj) 。 计 算 结 果 是 一 组 等 
式 ， 每 个 等 式 将 C (Xi，yj) 与 候选 权重 联系 起 来 : Cc (xj, yj) =9j (W*) 。w* 吉 示 图 G 中 所 有 的 候选 权重 的 集合 。 


2) 候选 边 的 权重 方程 组 构建 。 利 用 步骤 1 中 得 到 的 等 式 和 CAP 准 则 构建 一 组 方程 ， 使 得 候选 权重 之 间 相 互联 系 起 来 。 


3) 候选 边 的 权重 计算 。 对 步骤 2 中 的 方程 组 进行 求解 。 
4) 结合 基于 属性 的 相似 度 ， 利 用 步骤 3 中 求解 出 的 权重 来 进行 实体 消 收 。 
(1) 关联 强度 的 计算 


关联 强度 c (xi，yj) 的 计算 包括 两 个 阶段 : 第 一 阶段 找 出 x 和 yj 之 间 的 所 有 关联 关系 ; 第 二 阶段 衡量 第 一 阶段 找 出 的 所 有 关联 关系 的 强 
E, HERR. 


1) 关联 关系 发 现 。 


通常 来 说 ， 在 关系 图 G 中 ， 结 点 v[xl] 和 v[yj] 之 间 存 在 多 条 路 径 。 直 观 地 判断 ， 这 些 路 径 中 许多 (比如 很 长 的 路 径 ) 是 不 重要 的 。 为 了 快速 
地 找 出 重要 的 关联 关系 ，RelDC 方 法 计算 关系 图 G 中 结 点 v[xi] 和 vlyj] 之 间 的 不 超过 L 的 简单 路 径 集合 PL (xj, yj) 。 如 果 一 条 路 径 的 长 度 不 超过 
给 定 参数 L， 那 么 这 条 路 径 不 超过 L。 如 果 一 条 路 径 不 包括 重复 的 结 点 ， 那 么 这 是 一 条 简单 路 径 。 


计算 c (x, yj) 时 ， 并 不 是 考虑 两 结 点 之 间 的 所 有 路 径 。 给 定数 据 对 象 xirk， 它 的 候选 边 为 e1，e2，…，eN。 在 识别 xirk 时 ，RelDC 通 过 
关系 图 中 除 这 些 候选 边 以 外 的 拓扑 结构 来 计算 出 这 些 候选 边 的 权重 。 也 就 是 说 ，RelDC 利 用 图 G'=G-cho[xird。 另 外 ， 计 算 c (x, yj) 时 用 
到 的 路 径 很 可 能 包含 其 他 候选 结 点 的 候选 边 。 如 果 一 条 路 径 已 经 包含 了 一 个 候选 结 点 的 一 条 候选 边 ， 那 么 这 条 路 径 不 能 再 包含 相同 的 候选 结 
点 的 其 他 候选 边 。 比 如 ， 如 果 用 于 计算 关联 强度 的 一 条 路 径 已 经 包含 了 候选 结 点 的 一 条 候选 边 ej， 那 么 这 条 路 径 不 能 再 包含 其 他 候选 边 : 


e1，e2，.…，ej-1，ej+1，…，eN。 
2) 关联 强度 计算 。 


计算 结 点 u 与 \ 之 间 的 关联 强度 c (u，Vv) 的 一 种 直观 的 方法 是 ， 计 算 关系 图 G 中 从 结 点 u 到 v 的 随机 游 走 概率 ， 其 中 每 一 步 随 机 游 走 都 以 
一 定 的 概率 发 生 。 已 有 的 研究 工作 基于 马尔 可 夫 随 机 过 程 来 解决 这 类 问题 。 然 而 ， 在 RelDC 的 问题 设 定 中 存在 非法 路 径 ， 无 法 满足 马尔 可 夫 
随机 过 程 的 要 求 ， 因 此 无 法 利用 已 有 的 方法 来 解决 。RelDC 提 出 一 个 基于 权重 的 模型 (Weight-based Mode, WM) 来 解决 关联 强度 计算 


间 题 。 


WM 模型 非常 直观 ， 它 分 别 计算 每 条 关联 路 径 p 的 关联 强度 ， 然 后 将 这 些 路 径 的 关联 强度 求 和 得 到 结 点 u 与 v 之 间 的 关联 强度 c (u, v) 


cluso) = >) cp) (5. 18) 


PEP, (u,v) 


其 中 ， 从 结 点 u 到 v 的 关联 路 径 p 的 关联 强度 是 图 G 中 沿 着 路 径 p 的 概率 。 





图 5-10 u、v 关 联 强 度 示例 


例如 ， 图 5-10 中 结 点 u 与 v 之 间 存 在 两 条 不 同 的 路 径 : pa=u 一 a 一 v 和 pb=u 一 b 一 v。 结 点 b 与 除 结 点 U、Vv 以 外 的 许多 其 他 结 点 关联 ， 而 结 
点 a 只 与 结 点 U、Vv 关 联 。 可 以 认为 结 点 U、Vv 通 过 结 点 a 产 生 的 关联 强度 比 结 点 U、v 通 过 结 点 b 产 生 的 关联 强度 要 更 大 。 


为 了 准确 地 论证 c (Pa) >c (Pb) ， 分 别 用 沿 着 路 径 pa 和 pb 的 概率 来 表示 c (Pa) 和 c (Pp) 。 


每 条 不 超过 长 度 L 的 简单 路 径 p 可 以 看 作 一 组 连续 的 m 个 结 点 v1，v2，…，vm， 其 中 mx<L+1， 如 图 5-11 所 示 。 从 结 点 vi 出发， 有 ni+ 1 条 
(> 











边 可 以 选择 ， 权 重 分 别 为 wj o Wi, 1，.…， 于。 沿 着 权重 为 wi，0 的 边 走 的 概率 与 wj，0 成 正比 ， 为 j=0 。 沿 着 路 径 p 的 概率 就 是 
经 过 它 的 每 条 边 的 概率 的 乘积 ， 即 
ny n, Ny, 
A 人 人 
Wi; |M1,1 Wm, i | Ym, 1 
WI nl Wm, nm 
Win-1, 0 





起 始 结 点 终止 结 点 


比 。 


图 5-11 路 径 p=v1 一 v2 一 … 一 Vm 


m—] 


cp) = || ——— (5. 19) 


1. 
1 


i=] 
$ Wi, j 


J=Q 


那么 结 点 u 和 v 的 总 的 关联 强度 就 是 PL (U, v) 中 所 有 路 径 的 关联 强度 的 总 和 


clus) = >) cp) (5. 20) 


pEP, (u,v) 


计算 关联 强度 c (u, v) 实际 上 就 是 ， 求 沿 着 不 超过 长 度 L 的 简单 路 径 从 结 点 u 到 达 v 的 概率 ， 而 沿 着 某 条 边 的 概率 与 这 条 边 的 权重 成 正 
比如 ， 前 文中 示例 的 权重 如 下 : 


cy=c (Po, “Dave White” ) =c (P2? 一 Susan 一 MIT 一 John 一 P1 一 Don 一 P4 一 Joe 一 P5 一 Liz 一 P6 一 2 一 Dave White) =w3/2 
c2=c (P2, “Don White” ) =c (P2? 一 Susan 一 MIT 一 John 一 P1 一 Don White) =1 

c3=c (Pg, “Dave White” ) =w1/2 

c4=c (Pg, “Don White” ) =1 

(2) 候选 边 的 权重 等 式 构建 


给 定 未 识别 的 数据 对 象 xi.rk 和 它 的 候选 实体 yj 以 及 两 者 之 间 的 关联 强度 c (xi，yj) ， 可 以 利用 上 下 文 吸引 准则 来 确定 关系 图 G 中 候选 边 的 


权重 的 关系 。 


给 定 一 个 数据 对 象 xi.rk， 它 的 候选 集合 CS[xi.rk] 中 包括 N 个 元 素 y1，y2，.…，yN， 相 应 的 边 权 重 分 别 为 Ww1，w2，.….，wWN， 并 且 W1+W2+ 


.…+WN=1。 


RelDC 采 用 如 下 权重 赋予 策略 : 权重 w1，w2，.…，WN 与 相应 的 关联 强度 成 正比 例 ， 即 wjx cl=wIx cj。 采 用 这 种 策略 ,权重 


wj (j=1, 2, .., N) 为 


N N 
cl Dp Dyer > 0 


l=] l=] 


wW; 一 NÑ (D, 21) 
1/N > ô = 0) 


l=1 


比如 ， 前 文 示例 中 的 权重 为 : 


W1=C1/ (C1+C2) = (w3/2) / (1+ (w3/2) ) 
W2=C2/ (c4+c2) =1/ (1+ (w3/2) ) 
w3=C3/ (c3+c4) = (w1/2) / (1+ (w1/2) ) 
w4=Ca/ (c3+c4) =1/ (1+ (w1/2) ) 

(3) 候选 边 的 权重 计算 


给 定 一 组 候选 边 权重 的 方程 组 (如 上 一 小 节 所 示 ) ，RelDC 的 目标 求解 出 这 些 候选 边 权重 。 当 得 到 这 些 权重 之 后 ，RelDC 将 利用 这 些 权 
重 来 进行 数据 对 象 识别 GH) 。 在 前 文 的 示例 中 ,权重 w1=0，w2=1，w3=0，w4=1， 那 么 RelDC 判 定 P2 和 Pe 中 的 “D.White” 是 “Don 
White”。 

将 每 个 候选 边 的 权重 定义 为 其 他 权重 的 函数 : wi=fi (w°) 。wi 的 准确 函数 取决 于 式 (5.16) 、 式 (5.17) 和 式 (5.18) 以 及 关系 图 G 中 


结 点 v[xj 和 v[yj 之 间 的 不 超过 长 度 L 的 简单 路 径 集合 PL (x, y) e ERR, fi (wW) 是 常量 ， 因 此 wi 也 是 常量 。 


当前 的 目标 就 是 在 权重 约束 条 件 下 ， 求 解 由 所 有 wi=fi (w) 组 成 的 方程 组 ， 从 而 计算 出 所 有 的 边 权 重 wi。 由 于 所 有 wi=f (w) 组 成 的 
方程 组 不 一 定 有 一 个 精确 的 解 ， 将 这 些 等 式 转换 成 不 等 式 : 有 (w°) -5i<wisfi (w ) +65i。 其 中 ， 变 量 5 称 为 偏差 ， 是 非 负 实数 。 这 样 就 将 
问题 转化 成 一 个 非 线 性 规划 的 问题 ， 约 束 条 件 为 上 述 不 等 式 ， 目 标 是 使 所 有 偏差 6 的 和 最 小 ， 额 外 的 约束 是 ， 对 于 所 有 的 w 和 
5i，0<wis1，0<6i。 这 样 的 非 线 性 规划 的 问题 一 定 存在 解 。 





解决 上 述 非 线性 问题 的 常用 方法 是 通过 数据 工具 ， 如 SNOPT。 然 而 ， 这 样 的 数据 工具 无 法 扩展 到 实体 消 歧 这 样 的 数据 级 的 数据 上 。 
RelDC 提 出 一 个 简单 的 、 迭 代 的 方法 来 求解 上 述 非 线性 问题 。 这 个 迭代 的 方法 遍历 每 个 数据 对 象 xirk， 并 将 每 个 边 权重 初始 化 为 
T/|CS[xirkd|l。 接 下 来 ， 进 入 主 和 迭代 流程 ， 为 所 有 的 j 和 j 根 据 公 式 (5.17) 计算 c (x, yj) ;在 此 过 程 中 ， 所 有 的 权重 wj 由 1/|CS[xi.rk| 变 成 新 
的 值 。 重 复 主 和 迭代 流程 ， 直 到 所 有 的 权重 wj 收敛 或 者 是 通过 外 部 命令 停止 。 


现在 对 上 文中 的 示例 进行 一 轮 迭 代 。 初 始 时 ，w1=0，w2=1，w3=0，w4=1; 接 下 来 ，c1=1/4，c2=1，c3=1/4，c4=1; 最 
后 ，w1=1/5，w2=4/5，w3=1/5，w4=4/5。 如 果 在 此 时 停止 和 迭代 ， 利 用 这 些 权 重 值 来 判断 得 到 的 识别 结果 与 精确 解 的 结果 是 一 样 
AY: “D.White” 指 代 “Don White” 。 

(4) 基于 边 权 重 的 实体 消 歧 方法 


给 定 待 识别 的 数据 对 象 Xirk 和 候选 实体 集合 CS[xird={y1，y2，.…，yN}， 当 计算 出 所 有 的 权重 w1，w2，.…，wN 后 ，d[xirgd 对 应 的 实体 
是 具有 最 大 权重 wj 的 实体 yj。 


5.3.3 ”基于 异 构 实体 关系 的 实体 消 眩 方法 


日 常生 活 中 ， 不 同 的 人 或 物 可 能 拥有 相同 的 名 字 ， 从 而 在 各 种 应 用 中 造成 一 定 的 困扰 。 当 给 定 的 数据 对 象 只 包括 有 限 的 信息 时 ， 将 这 些 
数据 对 象 识别 出 来 是 十 分 困难 的 。Yin 等 人 提出 一 个 基于 异 构 实体 关系 的 实体 消 歧 方 法 一 一 DISTINCTI /]。 该 方法 将 两 个 互补 的 相似 度 〈 近 
邻 元 组 的 集合 相似 度 和 基于 随机 游 走 的 相似 度 ) 组 合 起 来 用 于 衡量 数据 对 象 间 的 相似 度 ; 接着 ， 采 用 一 个 合成 的 层次 聚 类 算法 来 进行 实体 消 
We; 最 终 , 描述 相同 实体 的 数据 对 象 归 入 相同 的 类 艇 ,描述 不 同 实体 的 数据 对 象 归 入 不 同 的 类 簇 。 





1 一 个 实例 


人 们 经 常会 在 Web 上 不 同 的 数据 库 中 进行 信息 检索 ， 比 如 DBLP、Yahoo shopping 和 AllMusic。 在 此 过 程 中 ， 经 常 遇 到 的 一 类 问题 是 不 


同 的 实体 拥有 相同 的 名 字 。 比 如 ，DBLP 中 有 197 篇 文章 由 14 个 不 同 的 Wei Wang 发 表 ; 在 AllMusic 网 站 上 ， 有 72 首 歌曲 和 3 张 专辑 名 

叫 “Forgotten”。 由 于 这 些 数据 对 象 出 现在 不 同 的 上 下 文 ， 只 包括 有 限 的 、 有 噪音 的 信息 ， 用 户 常常 无 法 因 别 这 些 数据 对 象 分 别 描述 哪些 
实体 。Yin 等 人 针对 关系 型 数据 库 中 的 数据 对 象 进行 实体 消 歧 。 给 定 一 个 包含 多 类 型 数据 对 象 的 数据 库 ， 其 中 存在 一 些 名 字 相 同 但 描述 不 同 实 
体 的 数据 对 象 ， 如 图 5-12 所 示 ， 当 前 的 目标 就 是 将 描述 相同 实体 的 数据 对 象 都 分 到 同一 个 类 艇 。 
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图 5-12 ”四 个 不 同 的 Wei Wang 及 相关 引文 信息 


与 传统 的 实体 识别 相 比 ， 本 节 研 究 的 实体 消 收 存在 以 下 不 同 : @@ 由 于 数据 对 象 的 名 称 是 完全 相同 的 ， 因 此 语义 相似 度 无 法 起 作用 ; @ 每 
个 数据 对 象 只 包含 少量 的 信息 ， 因 此 无 法 单 靠 这 些 信息 作出 判断 ;@ 描 述 相 同 实体 的 不 同 数据 对 象 出 现在 不 同 的 上 下 文 环境 中 ， 它 们 几乎 没 
有 共同 或 相似 的 属性 。 尽 管 待 识别 的 数据 对 象 只 包含 少量 的 信息 甚至 是 不 一 致 的 信息 ， 多 类 型 的 数据 对 象 间 的 关联 关系 可 以 为 数据 对 象 分 组 

( 即 消 尽 或 识别 ) 提供 非常 重要 的 信息 。 比 如 ， 在 一 个 引文 数据 库 中 ， 描 述 作者 的 数据 对 象 以 多 种 方式 通过 作者 、 会 议和 文章 引用 关联 起 
来 。 描 述 相同 作者 的 数据 对 象 通常 以 一 定 的 方式 关联 ， 如 通过 合作 者 、 合 作者 的 合作 者 或 文章 引用 。 这 些 链 接 (Linkage) 提供 了 非常 重要 
的 信息 ， 通 过 综合 地 分 析 这 些 信息 可 以 识别 出 这 些 数据 对 象 。 








2. 基 于 异 构 实体 关系 的 实体 消 歧 方 法 一 一 DISTINCT 


DISTINCT 方 法 包括 三 部 分 : 数据 对 象 相似 度 计算 ， 基 于 自动 构建 训练 集 的 监督 学 习 和 数据 对 象 聚 类 。 
(1) 数据 对 象 相似 度 计算 


如 果 一 组 数据 对 象 有 相同 的 文本 内 容 ， 那 么 称 这 组 数据 对 象 是 相似 的 。 如 果 两 个 数据 对 象 描述 相同 的 实体 ， 则 称 为 重复 的 或 匹配 的 ; 否 
则 ， 称 为 不 重复 的 或 不 匹配 的 。DISTINCT 的 目标 是 ， 将 一 组 相似 的 数据 对 象 划分 成 不 同 的 类 艇 ， 从 而 使 得 类 艇 和 实体 之 间 形 成 一 一 对 应 关 
系 。 由 于 每 个 数据 对 象 只 包含 非常 有 限 的 信息 ，DISTINCT 利 用 数据 库 中 待 识别 数据 对 象 与 其 他 元 组 的 关联 关系 。 关 联 关系 包括 以 下 两 种 信 
息 : 待 识别 数据 对 象 的 近邻 元 组 ; 数据 对 象 间 的 链接 。 给 定 两 个 数据 对 象 ， 两 者 的 近邻 元 组 的 重 老 越 大 或 两 者 的 链接 越 强 ， 这 两 个 数据 对 象 
越 可 能 是 重复 的 。 


1) 获取 近邻 元 组 。 

给 定 一 组 待 识别 的 数据 对 象 ， 存 在 关系 Rr 中 。 给 定 元 组 t! 中 的 一 个 数据 对 象 r 和 一 条 连接 路 径 P， 其 中 P 从 关系 Rr 开始 、 结 束 于 关系 Rt。r 沿 
着 路 径 P 的 近邻 元 组 NBP (r) 是 关系 Rt 中 沿 着 路 径 P 与 可 tr 连接 的 所 有 元 组 。 

一 个 数据 对 象 的 近邻 元 组 是 指 与 它 可 连接 的 元 组 。 一 个 数据 对 象 有 一 组 近邻 元 组 ， 也 就 从 包含 这 个 数据 对 象 的 关系 出 发 的 连接 路 径 到 达 
的 所 有 元 组 。 近 邻 元 组 的 语义 意义 是 由 连接 路 径 决定 的 。 比 如 ， 在 如 图 5-13 所 示 的 DBLP 数 据 库 的 关系 模式 中 ， 考 虑 Publish 关 系 中 的 作者 的 


数据 对 象 。 沿 着 连接 路 径 PublishcoPublicationscoPublishcoAuthors 的 近邻 元 组 表示 ， 一 个 数据 对 象 的 文章 的 作者 。 不 同 的 连接 路 径 有 不 同 
的 语义 ， 因 此 需要 分 别 地 对 待 不 同 的 连接 路 径 的 近邻 元 组 ， 然 后 通过 监督 地 学 习 将 它们 组 合 起 来 。 


Authors Publish Publications Proceedings Conference 













author paper-key proc-key conference 
















title 


paper-key conference publisher 





proc-key year 


location 


图 5-13 DBLP 数据库 的 关系 模式 


除了 数据 对 象 的 近邻 元 组 ， 近 邻 元 组 的 属性 对 于 实体 消 歧 也 是 非常 有 用 的 。 比 如 ，Conferences 关 系 中 的 近邻 元 组 在 属性 publisher 上 有 
相同 的 值 ， 说 明 这 两 个 元 组 存在 一 定 的 关系 。DISTINCT 把 元 组 属性 的 值 当 作 一 个 独立 的 元 组 (主键 和 外 键 除外 ) 。 比 如 ，publisher 属 性 的 
每 个 唯一 的 值 (如 ACM、Springer 等 ) 都 被 当 作 一 个 元 组 ，Proceedings 关 系 中 的 publisher 属 性 是 引用 其 他 元 组 的 外 键 。 通 过 这 种 方式 ， 
可 以 同时 利用 近邻 元 组 以 及 它们 的 属性 值 来 计算 相似 度 。 


2) 关联 强度 度量 。 

给 定 一 个 数据 对 象 r 和 一 条 连接 路 径 P，r 与 NBp(r) 中 不 同 元 组 的 关联 强度 是 不 同 的 ， 比 如 ， 一 个 作者 与 不 同 合作 者 的 关系 。DISTINCT 
用 传播 概率 来 衡量 数据 对 象 [ 和 NBp (r) 中 近邻 元 组 的 关联 强度 。 初 始 时 ， 包 含 [的 元 组 拥有 概率 1。 每 一 步 ， 对 于 每 个 非 0 概率 的 元 组 t， 将 t 
的 概率 平均 地 传播 给 沿 着 路 径 P 与 t 可 连接 的 所 有 元 组 。 对 于 NBpP (r) 中 的 每 个 元 组 t， 计 算 Probp (r 一 t) ， 即 沿 着 路 径 P， 从 到 达 t 的 概 
率 ， 可 用 于 衡量 r 与 t 间 的 关联 强度 ; 同 理 ，Probp (tor) 是 沿 着 P 的 逆 路 径 从 it 到达 r 的 概率 。 

上 述 的 传播 概率 可 以 通过 沿 着 所 有 合理 的 连接 路 径 进 行 深度 优先 遍历 来 计算 得 到 。 图 5-14 呈 现 了 从 RI 中 的 元 组 出 发 ， 传 播 到 R1 和 R1 中 元 
组 的 概率 变化 过 程 。 每 个 方 格 中 的 两 个 数字 分 别 表示 (从 初始 元 组 出 发 ) 到 达 这 个 元 组 的 概率 和 从 这 个 元 组 出 发 到 达 初 始 元 组 的 概率 。 





| 0/0 0/0 


图 5-14 元 组 间 的 传播 概率 


3) 近邻 元 组 的 集合 相似 度 计算 。 

关系 数据 库 中 ， 用 两 个 数据 对 象 的 近邻 元 组 的 集合 相似 度 来 表示 这 两 个 数据 对 象 的 上 下 文 相 似 度 。 近 邻 元 组 的 集合 相似 度 通过 jaccard 系 
数 来 定义 。 一 个 数据 对 象 与 不 同 的 近邻 元 组 有 不 同 的 关联 强度 ， 因 此 将 关联 强度 当 作 权重 ， 提 出 权重 化 的 Jaccard 系 数 。 给 定 两 个 数据 对 象 
r1 和 r2 以 及 连接 路 径 P， 那 么 两 者 的 近邻 元 组 的 集合 相似 度 是 


min( Probp (ri; — t),Probp (r: — t)) 
tE NBp Cr] ) AN NBp Cro) 


> max(Probp (7 — t), Probp (r: —> t)) 


tE NBp ( r UNB» (ra ) 





Resemp (ri 972) = 


(5. 22) 


4) 数据 对 象 的 链 路 相似 度 计 算 。 


除了 近邻 元 组 的 集合 相似 度 ， 影 响 两 个 数据 对 象 的 相似 的 另 一 个 因素 是 两 者 之 间 的 链接 (Linkage) ， 即 路 径 。DISTINCT 用 多 类 型 数据 
对 象 关联 图 上 的 随机 游 走 模型 来 计算 基于 链接 的 相似 度 。 两 个 数据 对 象 的 所 有 链接 的 总 强度 是 在 一 定 步 数 内 从 一 个 数据 对 象 出 发 ， 到 达 另 外 
一 个 数据 对 象 的 概率 。 


通常 来 说 ， 沿 着 较 长 的 连接 路 径 的 随机 游 走 概率 的 计算 代价 较 高 。 由 于 已 经 计算 了 从 数据 对 象 出 发 、 到 达 它 们 的 近邻 元 组 的 游 走 概率 ， 
以 及 从 它们 的 近邻 元 组 出 发 、 到 达 这 些 数 据 对 象 的 游 走 概率 ， 通 过 组 合 这 些 概率 可 以 较 小 代价 地 计算 出 两 数据 对 象 间 的 游 走 概率 。 


总 之 ， 两 数据 对 象 间 的 随机 游 走 概率 可 以 衡量 它们 链接 的 强度 ， 它 与 近邻 元 组 的 集合 相似 度 是 互补 关系 。DISTINCT 将 这 两 个 相似 度 综 
合 起 来 衡量 数据 对 象 的 相似 度 。 


(2) 基于 监督 学 习 训练 路 径 权重 


已 有 的 基于 实体 关系 的 实体 识别 方法 同等 地 对 待 所 有 的 连接 路 径 。 然 而 ， 不 同 的 连接 路 径 的 语义 不 同 ， 因 此 应 该 赋予 不 同 的 权重 。 比 


如 ， 在 DBLP 数 据 库 中 ， 与 同一 个 合作 者 关联 的 两 个 作者 数据 对 象 的 关联 强度 很 大 ， 而 与 同一 个 会 议 关联 的 两 个 数据 对 象 的 关联 强度 就 小 得 
多 。 


DISTINCT 通 过 监督 学 习 来 确定 不 同 连 接 路 径 的 权重 。 为 此 ， 需 要 一 个 训练 集 ， 包 括 匹 配 的 数据 对 象 对 (正面 的 ) 和 不 匹配 的 数据 对 象 
对 (负面 的 ) 。 传 统 的 训练 集 构建 需要 大 量 的 人 力 和 领域 知识 ，DISTINCT 则 自动 地 构建 训练 集 。 其 基本 思想 是 ， 多 数 应 用 中 大 部 分 实体 有 
唯一 的 名 字 ， 而 只 有 少量 重 名 的 情况 。 以 人 的 姓名 为 例 ， 由 姓 和 名 两 部 分 组 成 。 如 果 一 个 姓名 由 一 个 非常 少见 的 姓 和 一 个 非常 少见 的 名 组 
成 ， 那 么 这 个 名 字 很 可 能 是 唯一 的 ， 即 不 存在 重 名 情况 。 现 在 找 出 数据 库 中 这 样 的 姓名 ， 用 它们 来 构建 训练 集 。 一 对 描述 同一 实体 的 数据 对 
象 是 一 个 正面 的 样 例 ， 一 对 描述 不 同 实体 的 数据 对 象 是 一 个 负面 的 样 例 。 


给 定 训练 集 ， 通 过 支持 向 量 机 来 学 习 基于 不 同 连 接 路 径 的 权重 分 配 模型 。 每 个 训练 样 例 〈 即 一 个 数据 对 象 对 ) 都 转换 成 一 个 向 量 ， 向 量 
的 每 个 维度 都 表示 沿 着 某 条 连接 路 径 的 近邻 元 组 的 集合 相似 度 。 然 后 ， 用 基于 线性 核 的 支持 向 量 机 来 处 理 这 个 训练 集 。 最 终 ， 学 习 得 到 沿 着 
不 同 连接 路 径 的 集合 相似 度 的 线性 组 合 。 一 般 来 说 ， 重 要 的 连接 路 径 对 应 较 大 的 权重 ， 而 其 他 的 相似 度 的 权重 可 能 接近 于 0， 可 以 在 后 续 的 
计算 中 直接 忽略 。 给 定 两 个 数据 对 象 [| 和 r2， 两 者 综合 的 集合 相似 度 为 


Resem(ri yy ) = X wp) 。 Resemp (ri ,7») (5:23) 


pEP 


Hh, w (p) 是 连接 路 径 p 的 权重 。 

(3) 数据 对 象 聚 类 

给 定 一 组 具有 相同 名 称 的 数据 对 象 ，DISTINCT 将 它们 划分 成 不 同 的 类 艇 ,每 个 类 簇 对 应 一 个 真实 的 实体 。 
1) 聚 类 策略 。 


实体 识别 或 消 层 中 的 数据 对 象 聚 类 具有 以 下 特点 : @ 数 据 对 象 并 不 是 在 欧 几 里 得 空间 ; @ 类 艇 的 数目 不 是 已 知 的 ; @ 重 复 的 数据 对 象 可 
以 合并 成 一 个 类 能， 表示 同一 个 实体 。 因 此 ， 采 用 合并 的 层次 聚 类 (Hierarchical Clustering) 实现 ， 初 始 时 将 每 个 数据 对 象 当 作 一 个 类 
fk, AREA RUA. 


聚 类 的 一 个 重要 方面 是 如 何 衡量 两 个 类 簇 的 相似 度 。 单 链 (Single-Link) 、 全 链 (Complete-Link) 和 均 链 (Average-Link) 是 三 个 常 
见 的 类 艇 相似 度 。 由 于 描述 相同 实体 的 多 个 数据 对 象 可 能 形成 弱 关 联 的 划分 ， 全 和 链 不 适合 ;描述 不 同 实体 的 数据 对 象 可 能 是 关联 的 ， 因 此 单 
链 也 不 适合 。 相 对 来 说 ， 均 链 比 较 适合 数据 对 象 聚 类 ， 它 衡量 两 个 类 艇 的 综合 相似 性 ， 不 易 受 某 些 局 部 的 相似 度 误导 。 


由 于 描述 相同 实体 的 多 个 数据 对 象 可 能 形成 弱 关 联 的 划分 ， 均 链 也 无 法 十 分 准确 地 衡量 类 簇 的 相似 度 。 比 如 ， 在 DBLP 数 据 库 中 ， 同 一 个 
作者 在 多 个 不 同 的 单位 工作 过 ， 并 在 此 过 程 中 与 不 同 的 作者 合作 过 。 当 这 样 的 划分 (Fie) 比较 大 时 ， 即 使 它们 之 间 存 在 很 多 链接 ， 它 们 基 
于 均 链 的 相似 度 也 比较 小 。 为 了 解决 这 个 问题 ， 将 均 链 与 两 类 簇 的 联合 式 随机 游 走 概率 结合 起 来 计算 类 簇 的 相似 度 。 两 类 簇 的 联合 式 随 机 游 
走 概率 是 从 一 个 类 艇 出 友 随 机 游 走 到 达 另 外 一 个 类 艇 的 概率 。 具 体 来 说 ， 将 基于 均 链 的 相似 度 和 联合 式 随 机 游 走 概率 综合 起 来 衡量 类 艇 的 相 
似 度 。 由 于 这 两 种 相似 度 方法 可 能 具有 不 同 的 数量 级 ， 采 用 几何 平均 数 公式 来 组 合 这 两 种 相似 度 ， 得 到 综合 的 类 艇 相似 度 





Sim(C, sC) 三 Resem(C,,C;) « WalkProb(C,;,C,) (5.24) 


其 中 ，Resem (Cy, C2) 是 两 个 类 艇 的 基于 均 链 的 相似 度 ，WalkProb (Cy, C2) 是 两 个 类 艇 的 联合 式 随 机 游 走 概率 。 
2) 聚 类 计算 。 


初始 时 ， 每 个 数据 对 象 都 是 一 个 类 能， 计算 每 两 个 类 篮 的 集合 相似 度 和 随机 游 走 概 率 。 这 个 开销 通常 不 会 大大， 因为 有 相同 名 称 的 数据 
对 象 的 数量 不 会 太 多 。 每 一 步 ， 最 相似 的 两 个 类 簇 C1 和 C2 将 合并 成 一 个 新 类 艇 C3; 接 下 来 ， 需 要 计算 C3 与 剩余 的 每 个 类 簇 C 的 相似 度 。 当 
C3 变 得 非常 大 时 ， 查 力 (brute-force) 的 方法 需要 花费 与 初始 化 时 两 两 相似 度 计 算 的 总 开销 相近 的 开销 ， 来 计算 C3 与 剩余 的 每 个 类 簇 C 的 


相似 度 。 在 每 一 步 都 进行 这 样 大 开销 的 计算 ， 显 然 是 不 可 以 接受 的 。 


为 了 解决 这 个 问题 ， 提 出 了 快速 的 类 簇 相 似 度 计算 方法 ， 随 着 类 艇 的 合并 ， 增 量 地 计算 类 艇 相似 度 。 提 高 计算 速度 的 基本 思想 是 ，C3 与 
C 的 基于 均 链 的 相似 度 和 随机 游 走 概率 ， 都 可 以 通过 将 C1、C2 和 Ci 的 相似 度 聚集 后 直接 得 到 |。 
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大 数据 时 代 ， 数 据 呈 现 关联 性 ， 利 用 数据 关联 性 可 以 更 好 地 和 解决 实体 识别 问题 。 联 合式 实体 识别 中 ， 不 同 数据 对 象 的 识别 结果 相互 影 
响 ， 因 此 利用 相似 度 传递 同时 对 多 个 数据 对 象 进行 实体 识别 ， 可 以 提高 实体 识别 的 精确 性 。 实 体 消 收 或 名 字 消 收 是 实体 识别 中 一 个 非常 重要 
的 子 问题 ， 由 于 数据 对 象 拥有 完全 相同 的 名 称 ， 单 单 通过 属性 信息 无 法 解决 消 歧 问题 ， 而 实体 关系 可 以 帮助 解决 消 歧 问题 。 本 章 介绍 了 基于 
关系 的 实体 识别 ,分 为 两 大 类 : 联合 式 实体 识别 (包括 基于 关系 聚 类 的 联合 式 实 体 识别 和 复杂 信息 空间 中 的 联合 式 实体 识别 ) 和 基于 实体 关 
系 的 消 歧 (包括 基于 社交 关系 的 名 字 消 上 疏 、 基 于 实体 关系 的 实体 消 上 收 和 基于 异 构 实 体 关系 的 实体 消 歧 ) 。 
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第 6 草 ”新 型 的 实体 识别 技术 


6.1 引言 


传统 的 实体 识别 技术 典型 面向 数据 记录 集 ， 基 于 相似 度 计算 算法 或 基于 学 习 模型 实现 重复 记录 识别 ， 主 要 侧重 如 何 提高 实体 识别 的 准确 
性 ， 并 有 效 地 降低 实体 识别 代价 。 然 而 ， 随 着 应 用 需求 和 实体 识别 技术 的 研究 发 展 ， 还 需要 面 对 如 下 一 些 新 的 需求 和 应 用 场景 。 


1) 有 些 数 据 记录 存在 具有 时 间 特 性 的 属性 ， 如 职级 、 经 历 等 。 具 有 时 间 特 性 的 属性 记录 的 识别 过 程 表现 出 如 下 特点 : 在 不 同 的 时 间 
段 ,描述 同一 实体 的 同一 属性 的 取 值 可 能 不 同 ， 如 雇员 的 职级 属性 的 值 “2000 年 为 工程 是”， 而 “2005 年 为 高 级 工程 是 ”; 在 不 同 的 时 间 
段 ， 描 述 不 同 实体 的 属性 取 值 可 能 相同 ， 如 “2000 年 就 职 于 东北 大 学 的 张 莉 ”和 “2008 年 就 职 于 东北 大 学 的 张 莉 ”， 尽 管 单位 名 称 相 同 、 姓 
名 相同 ， 但 对 应 不 同 的 实体 。 传 统 的 相似 度 计算 方法 不 能 很 好 适用 ， 为 此 ， 提 出 了 结合 时 间 模 型 的 相似 度 计算 方法 ， 改 善 实体 识别 的 准确 
性 。 





2) 传统 基于 机 器 的 实体 识别 方法 具有 识别 准确 性 不 高 的 局 限 性 , 如 “iPad Two 16GB WiFi White” #9 “iPad 2nd generation 16GB 
WiFi White” 明 然 是 同一 个 实体 ， 但 基于 Jaccard 相 似 度 计算 公式 得 到 的 相似 度 仅 为 0.57， 不 能 确定 是 同一 个 产品 。 在 “互联 网 +” 的 今天 ， 
大 众 参 与 已 成 为 当前 商业 模式 常态 ， 为 此 ， 提 出 了 结合 人 -机 混合 的 实体 识别 方法 ， 利 用 大 众 的 智慧 来 改善 实体 识别 的 准确 性 。 


3) 大 数据 时 代 的 实体 识别 呈现 出 满足 隐私 保护 的 新 应 用 需求 ， 例 如 ， 同 一 实体 用 户 的 医疗 信息 分 布 在 多 个 医院 ， 为 能 够 更 准确 地 了 解 
同一 实体 用 户 的 健康 及 医疗 状况 ， 期 望 能 够 整合 该 实体 用 户 在 不 同 医院 的 体检 以 及 诊断 信息 ， 有 利于 更 准确 地 分 析 病 情 和 了 解 该 用 户 的 健康 
状况 。 然 而 ， 由 于 涉及 患者 隐私 ， 各 医院 并 不 希望 暴露 患者 的 医疗 信息 。 为 此 ， 提 出 了 隐私 保护 下 的 实体 识别 方法 。 


本 章 将 介绍 基于 时 间 模 型 的 实体 识别 技术 、 基 于 众 包 的 实体 识别 技术 和 隐私 保护 下 的 实体 识别 技术 。 
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本 章 将 介绍 基于 时 间 模 型 的 实体 识别 技术 、 基 于 众 包 的 实体 识别 技术 和 隐私 保护 下 的 实体 识别 技术 。 


6.2 ”基于 时 间 模 型 的 实体 识别 技术 


在 真实 世界 动态 环境 中 ， 实 体 及 其 关联 关系 、 关 联 实体 会 随时 间 演 化 。 例 如 ， 一 个 国家 的 现任 总 统 、 一 个 人 的 前 任 配 偶 等 。 另 外 ， 现 实 
世界 中 有 些 上 下 文 、 属 性 值 也 不 是 静态 的 ， 有 些 实体 的 描述 属性 会 随时 间 演 化 ， 例 如 ， 东 北大 学 计算 机 学 院 因 搬迁 至 新 校区 ， 计 算 机 学 院 的 
很 多 老师 的 工作 电话 和 单位 地 址 都 发 生 了 变化 。 这 种 随时 间 而 值 不 同 的 属性 (如 工作 电话 和 单位 地 址 ) 称 为 演化 属性 。 在 实体 识别 过 程 中 ， 
具有 相同 属性 值 的 两 条 记录 不 一 定 对 应 相同 的 实体 ， 而 具有 不 同属 性 值 的 两 条 记录 也 不 一 定 对 应 不 同 的 实体 。 例 如 ，Xin Dong 和 Xin Luna 
Dong 在 2005 年 和 2007 年 具有 相同 的 单位 名 称 Univ of Washington， 却 对 应 不 同 的 实体 ; 而 同一 实体 Xin Dong 在 1991 年 的 单位 是 
R.Polytechnic Institute， 而 在 2005 年 为 Univ of Washington， 尽 管 单位 不 同 ， 却 对 应 同一 实体 。 这 种 具有 演化 属性 的 实体 的 演化 过 程 称 为 
实体 演化 。 已 有 传统 的 没有 考虑 时 间 信 息 的 实体 识别 方法 不 能 适应 具有 时 间 特 性 的 实体 识别 。 为 此 ， 提 出 基于 时 间 模 型 的 实体 识别 方法 ， 主 
要 包括 两 部 分 : 一 是 用 于 捕捉 实体 演化 的 时 间 模 型 ， 是 识别 具有 演化 属性 的 实体 的 核心 部 分 ; 二 是 基于 时 间 模 型 的 实体 识别 算法 ， 能 够 改善 
具有 时 间 属 性 的 重复 记录 识别 的 准确 性 。 


6.2.1 一 个 实例 


表 6-1 中 的 记录 为 从 DBLP 数 据 集中 选 出 的 文章 作者 信息 ， 分 别 对 应 现实 世界 中 的 三 个 实体 : 
el{r1}: 作者 “Xin Dong”，1991 年 工作 在 R.Polytechnic Institute. 


e2{r2~r6}: 作者 “Xin Dong” 与 作者 “Xin Luna Dong” 是 同一 个 实体 ，2004 一 2007 年 工作 在 Univ of Washington，2009 一 2010 年 
工作 在 AT&T Labs-Reasearch。 


e3{r7~r11}: 作者 “Dong Xin”，2004 一 2007 年 工作 在 Univ of lllinois，2008 一 2010 年 工作 在 Microsoft Research, 


分 析 表 6-1 中 记录 : 在 e2{r2~r6} 中 ， 属 性 name 的 属性 值 “Xin Dong” 和 “Xin Luna Dong” 不 同 ， 但 对 应 同一 个 实体 ; 在 
e1{r1}，e2{r2~r6} 中 ， 虽 然 具有 相同 的 名 字 (属性 name 的 属性 值 “Xin Dong” ) ， 却 对 应 不 同 的 实体 。 


假设 ， 不 考虑 演化 属性 的 演化 特点 ， 仅 基于 属性 相似 度 进 行 实体 识别 ， 具 有 识别 准确 性 较 低 的 局 限 性 。 
情况 1: 若 基于 属性 “name” 相 似 度 识别 ， 结 果 为 三 个 实体 组 : {r1~r3}, {r4~r6}, {r7~r11}. 
情况 2: 若 基于 属性 “affiliation” 相 似 度 识 别 ， 结 果 为 五 个 实体 组 : {r1}, {r2~r4}, (r5, r6}, {r7, r8}, {r9, r10, r11} 


情况 3: 若 基于 属性 “name” 和 “affiliation” 相 似 度 识别 ， 结 果 为 六 个 实体 组 : {r1}, {r2~r3}, {r4}, {r5, r6}, {r7, r8}, 
{r9, r10, r11} 


可 见 ， 上 述 三 种 情况 均 不 能 得 到 正确 的 结果 。 针 对 情况 1， 无 法 识别 出 e1{r1}，e2{r2~r3}; 针对 情况 2， 将 e2{r2~r6} 错 分 为 {T2~r4} 和 
{r5，r6}; 针对 情况 3，e2{r2~r6} 错 分 为 {r2~r4}，{r5，r6}， 将 e3{r7~r11) 错 分 为 {r7，r8},，{r9,，r10,r11}。 


为 此 ， 提 出 了 考虑 演化 属性 的 实体 识别 方法 ， 即 基于 时 间 模 型 的 实体 识别 的 方法 ,期望 改善 实体 识别 的 准确 性 。 


表 6-1 DBLP 中 文章 作者 信息 片段 


eid i name affiliation co-authors year 





el F Xin Dong R. Polytechnic Institute Wozny 1991 


e2 ; Xin Dong Univ of Washington ， Tatarinov 2004 





e2 7 Xin Dong Univ of Washington 2005 


e2 -4 Xin Luna Dong | Univ of Washington Halevy, Yu 2007 





e2 d; Xin Luna Dong | AT & T Labs-Research Das Sarma, Halevy 2009 


e2 Xin Luna Dong | AT & T Labs-Research 2010 
e3 r7 | Dong Xin Univ of Illinois 2004 


e3 - Dong Xin Univ of Illinois Wah 2007 
e3 £ Dong Xin Microsoft Research Wu, Han 2008 


e3 Dong Xin Microsoft Research Chaudhuri, Ganti 2009 











e3 - Dong Xin Microsoft Research Ganti 2010 





6.2.2 ”时 间 模型 


时 间 模 型 用 来 预测 实体 的 某 个 属性 随时 间 发 生变 化 的 概率 的 情况 ， 并 将 这 种 概率 转化 为 计算 属性 值 相似 度 的 权重 ， 应 用 于 记录 的 相似 度 
计算 中 。 对 于 具有 相同 属性 值 但 对 应 不 同 实体 的 记录 ， 时 间 模 型 能 很 好 地 降低 该 属性 的 权重 ; 对 于 具有 不 同属 性 值 但 对 应 相同 实体 的 记录 ， 
时 间 模 型 也 能 降低 该 属性 的 权重 ， 使 得 因 属性 值 不 同 对 实体 识别 结果 的 影响 变 小 。 因 此 ， 对 于 带 有 演化 属性 的 记录 集 ， 将 时 间 模 型 应 用 于 相 
似 度 计 算 会 提高 实体 识别 的 准确 性 。 


用 于 实体 识别 的 时 间 模 型 主要 基于 以 下 两 点 : 一 是 实体 内 属性 不 一 致 问题 ， 即 随 着 时 间 的 变化 ， 属 性 值 不 同 的 记录 不 一 定 对 应 不 同 的 实 
体 ， 如 Xin Dong 在 1991 年 的 单位 是 R.Polytechnic Institute， 而 在 2005 年 为 Univ of Washington， 尽 管 随 着 时 间 工 作 单位 不 同 ， 但 却 都 是 
同一 实体 Xin Dong 的 记录 信息 ; 二 是 实体 间 属 性 一 致 问题 ， 即 随 着 时 间 的 变化 ， 属 性 值 相 同 的 记录 也 不 一 定 对 应 同一 实体 ， 如 虽然 Xin 
Dong 和 Xin Luna Dong 在 2005 年 和 2007 年 都 具有 相同 的 单位 名 称 Univ of Washington， 但 却 对 应 两 个 不 同 的 实体 。 


已 有 的 时 间 模 型 主要 有 四 种 : 一 种 是 时 间 衰 减 模型 []， 通 过 统计 实体 属性 值 的 生命 周期 来 预测 实体 的 属性 取 值 在 一 定时 间 段 内 发 生 改 变 


的 概率 ; 另 一 种 是 实体 突变 模型 站， 通过 统计 实体 的 属性 值 重复 出 现 的 概率 评估 属性 值 在 某 个 时 间 点 发 生变 异 的 概率 ， 来 预测 实体 内 的 属性 
值 不 一 致 的 情况 ; 第 三 种 是 条 件 概率 模型 B]， 通 过 计算 在 对 应 不 同 实体 的 条 件 下 记录 具有 相同 属性 值 的 条 件 概率 ， 来 预测 实体 间 属 性 一 致 的 
情况 ;第 四 种 是 属性 值 转换 模型 内， 通过 计算 属性 值 转换 的 次 数 来 预测 属性 值 之 间 转 换 的 概率 。 


1. 时 间 衰 减 模型 


随 着 时 间 的 推移 ， 实 体 的 属性 值 会 发 生 改 变 。 在 一 定 的 时 间 间 隔 内 ， 一 方面 ， 记 录 的 属性 值 不 同 不 能 表明 这 些 记录 对 应 不 同 的 实体 ， 通 
常 使 用 不 一 致 衰减 模型 (Disagreement Decay) 来 捕捉 ; 另 一 方面 ， 随 着 时 间 的 推移 ， 某 些 记录 可 能 具有 相同 的 属性 值 ， 但 具有 相同 属性 
值 的 记录 不 能 表明 这 些 记录 对 应 相同 的 实体 ， 通 常 使 用 一 致 衰减 模型 (Agreement Decay) 来 捕捉 。 不 一 致 衰减 模型 和 一 致 衰减 模型 是 两 种 
不 同 的 时 间 衰 减 模型 (Time Decay Model) ， 基 于 训练 标签 数据 集 学 习 获得 或 由 领域 专家 定义 。 

(1) 不 一 致 衰减 模型 


不 一 致 衰减 模型 [1 描述 为 在 At 时 间 内 实体 的 属性 A 取 值 发 生 改 变 的 概率 。 令 At 为 一 个 时 间 间隔 ， 属 性 A 为 一 个 单 值 属性 ， 则 属性 A 在 时 间 
间隔 At 内 的 不 一 致 衰减 模型 定义 为 d* (A, At) 。 

给 定 一 个 实体 E 和 对 应 实体 的 一 组 记录 r1，.…，rn，n>1， 记 录 按 时 间 截 升序 排列 。 对 于 一 个 时 刻 t， 若 存在 一 个 记录 ri，ie[2，n], r 的 
值 与 ri-1 的 值 不 同 ， 则 时 刻 t 是 一 个 变化 点 ， 若 t 不 是 实体 E 的 最 后 一 个 时 间 点 ， 则 称 时 间 跨 度 [t,tnext) 为 全 时 间 跨 度 ，tnext 是 下 一 个 变化 点 。 
如 果 t 是 实体 E 的 最 后 一 个 时 间 点 ， 则 称 时 间 跨 度 [t,tend+6) 为 部 分 时 间 跨 度 ， 其 中 ，tend 是 实体 E 的 最 后 一 个 记录 的 时 间 戳 ，8 为 一 个 时 间 单 
元 。 一 个 时 间 跨 度 [tt ) 的 长 度 为 At=t'-t， 表 明 实 体 的 属性 值 在 t' -t 的 时 间 内 不 发 生变 化 。 这 里 将 全 时 间 跨 度 的 集合 定义 为 Lf， 部 分 时 间 跨 度 
的 集合 定义 为 Lp， 则 不 一 致 衰减 的 计算 公式 定义 为 : 


|E Lll AAt} | 


(Lilt I © Lel As} | 


d” (A, At) — 


以 表 6-1 中 e2{r2~r6} 实 体 为 例 ， 对 于 演化 属性 affiliation，2009 为 单位 属性 的 转折 点 ，[2004，2009) 为 全 时 间 跨 度 ，tnext=2009 为 下 
一 个 变化 点 ; [2009，2011) 为 部 分 时 间 跨 度 ，t=2009 是 最 后 一 个 时 间 点 ; 因为 后 续 没有 单位 的 改变 ，tend=2010 为 最 后 一 个 记录 的 时 间 


戳 。e2 中 属性 affiliation 存 在 一 个 全 时 间 跨 度 At=2009-2004=5， 一 个 部 分 时 间 跨 度 At=2011-2009=2。 


同 理 ，e1{r1} 中 不 存在 全 时 间 跨 度 ， 存 在 一 个 部 分 时 间 跨 度 At=1。e3{r7~r11} 中 ， 存 在 一 个 全 时 间 跨 度 At=2008-2004=4， 一 个 部 分 时 
间 跨 度 At=2011-2008=3。 


因此 ， 基 于 表 6-1 中 记录 的 演化 属性 affiliation,，Lf={4，5}, Lp={1，2，3}。 
令 A=affiliation， 则 : 若 Ate[0，1] 时 , d* (A, At) =0/ (2+3) =0 GE: 分 子 “0” 表 示 没 有 满足 Ate [0，1] 的 全 时 间 跨 度 ， 分 母 


中 “2” 表 示 有 2 个 全 时 间 跨 度 ，“3” 表 示 有 3 个 满足 >At 的 部 分 时 间 跨 度 ) ; 若 At=2 时 ,dz* (A, At) =0/ (2+2) =0; 若 At=3 
At, d* (A, At) =0/ (2+1) =0; 若 At=4 时 , d* (A, At) =1/ (2+0) =0.5; #At>5ff, d* (A, At) =2/ (2+0) =1。 


(2) 一 致 衰减 模型 
一 致 衰减 模型 [1 描述 为 在 At 时 间 内 两 个 不 同 的 实体 在 属性 A 上 具有 相同 的 属性 值 的 概率 。 令 At 为 一 个 时 间 间 隔 ， 属 性 A 为 一 个 单 值 属性 ， 
属性 A 在 时 间 间 隔 At 内 的 一 致 衰减 模型 定义 为 d= (A, At) 。 


若 实 体 E1 在 时 间 跨 度 [t1，t2] 上 具有 属性 值 v， 实 体 E2 在 时 间 跨 度 [t3，t4] 上 具有 属性 值 v， 假 设 t1<t3， 对 于 任何 的 At>max{0，t3- 
t2+6}，E1 和 E2 在 At 时 间 内 具有 相同 的 属性 值 v， 将 At>max{0，t3-t2+6} 称 为 实体 E1 和 E2 在 属性 值 v 上 的 时 间 跨 度 ， 时 间 跨 度 集合 描述 为 L。 
要 注意 的 是 ， 对 于 从 来 不 具有 相同 属性 值 的 两 个 实体 的 时 间 跨 度 定 义 为 无 穷 大 。 则 一 致 衰减 的 计算 方式 定义 为 


HEE LII Ag] 


d (A, At) = = (6. 2) 
IL] 


以 表 6-1 中 实体 e1{r1} 和 和 e2{r2~r6} 为 例 ， 对 于 演化 属性 name，e1 在 [1991，1992) 和 e2 在 [2004，2007) 具有 相同 的 属性 值 “Xin 
Dong”， 则 At=2004-1992+1=13，e1 在 [1991,1992) 和 e2 在 [2007，2009) 时 间 跨 度 中 没有 相同 的 属性 值 ， 则 At=co， 同 理 ，e1 在 
[1991, 1992) 和 e2 在 [2009，2010) 时 间 跨 度 中 也 没有 相同 的 属性 值 ， 则 At=co。 因 此 ，L= 
{13, œ, œ}, d= (name, Ate [0, 12] ) =0/3=0, d= (name，At>13) =1/3=0.33。 


(3) 时 间 衰 减 模型 的 应 用 


当 计 算 两 条 具有 较 大 时 间 间 隔 的 记录 的 相似 度 时 ， 希 望 降低 对 属性 值 不 同 的 惩罚 ， 同 时 也 降低 对 具有 相同 属性 值 的 奖励 。 为 此 ， 基 于 时 
间 豪 减 模型 来 为 属性 值 的 相似 度 分 配 权 重 。 属 性 值 的 权重 由 两 条 记录 的 时 间 间 隔 和 属性 值 的 相似 度 共 同 决定 ， 具 体 计算 公式 定义 为 : 


1 一 2 (A,Azt) sima (rsr ) >On 
l—ad> (AAt) sima (r,r) <6, 
1— sima (r,r) e d~ (A,At) 

=s Gr + d* AAD 其 他 


wa (sima (r,r), At)) =< 





(6. 3) 
Hh, sima (r, r) 为 记录 rr 在 属性 A 上 的 相似 度 ，9h 和 6 人 分 别 为 闭 值 定义 。 


令 .4 为 实体 记录 的 属性 集合 ，AE 4 是 一 个 属性 ，simA (r, r) =sim (r.A, VA) ， 将 属性 权重 应 用 到 实体 记录 相似 度 计算 公式 ， 得 
到 记录 r、r' 的 相似 度 sim (r, r), BENJ 





. £ / . / 
X wa (sim, (r,r ),/r¢ —r.t|) © sima (rsr ) 
; / A 
sim(r,r ) = kA (6. 4) 
SJ wr (sima (rsr ), [r.t —r.t|) 
ACA 





2 实体 突变 模型 


时 间 衰 减 模型 主要 侧重 于 预测 实体 的 属性 值 在 一 定 的 时 间 间 隔 内 是 否 会 发 生变 异 的 概率 。 而 实体 突变 模型 (Entity Mutation Model) 
侧重 于 实体 属性 值 在 一 定 的 时 间 内 重 现 的 概率 ， 主 要 用 于 捕捉 实体 内 的 属性 不 一 致 的 情况 ， 但 也 可 以 用 于 捕捉 实体 间 的 属性 一 致 的 情况 。 具 
体 由 实体 突变 、 突 变 点 /突变 记录 和 突变 函数 来 描述 。 


(1) 一 个 实例 


表 6-2 中 内 容 为 DBLP 中 来 自 于 同一 作者 “Lei Wang” 的 文章 出 版 信息 ， 观 察 作者 “Lei Wang” 的 工作 单位 “affiliation”、 合 作 
者 “co-authors” 信 息 ， 尽 管 随时 间 信 息 “year” 的 变化 而 变化 ， 但 从 中 可 以 观察 到 ， 作 者 “Lei Wang” 在 2001 年 离开 “Xidian 
University” 之 后 ，2007 年 又 加 入 了 “Xidian University” ; 相应 的 合作 者 “co-authors” 集 也 随 着 时 间 演 化 出 现 重 现 现 象 ， 如 “Licheng 
Jiao”。 为 解决 实体 内 属性 值 不 一 致 的 情况 ， 提 出 实体 突变 模型 ， 用 于 捕捉 实体 内 的 属性 值 变 化 的 情况 以 及 实体 属性 值 在 一 定 的 时 间 内 重 现 
的 概率 ， 以 此 预测 演化 属性 的 相似 度 权 值 。 


表 6-2 DBLP 中 作者 “Lei Wang” 记 录 样 例 


name affiliation co-authors year 

















Lei Wang | Xidian University Licheng Jiao 1999 
Lei Wang | Xidian University Licheng Jiao 2000 
(2%) 
rid i name affiliation co-authors year 
r3 Lei Wang | Xidian University Licheng Jiao 2001 





Yinling Nie, Weike Nie, 
rd Lei Wang | Xi’an Univ. of Tech. . e 2005 
Licheng Jiao 

Yinling Nie, Weike Nie, 
r5 Lei Wang | Xi’an Univ. of Tech. . . 2006 
Licheng Jiao 


re Lei Wang | Xi’an Univ. of Tech. Liya Wang, Yinling Nie 2006 





ee . . Jiaji Wu, Licheng Jiao, Li 
r7 Lei Wang | Xidian University i 、 . j l 2007 
Zhang, Guangming Shi 





Zheng Wan, Chen Yang, 


rg Lei Wang | BeijingUniv. of A&A 2009 


LiZhang, Qiang Ye 


: oan . Licheng Jiao, Jiaji Wu, 
r9 Lei Wang | Xidian University 、 . B . g 2009 
Guangming Shi 


Licheng Jiao, Jiaji Wu, 


rio Lei Wang | Xidian University 2010 











Guangming Shi, Yanjun Gong 


(2) 相关 概念 


实体 突变 : 令 E 为 一 个 实体 ，A 是 一 个 属性 ， 如 果实 体 E 的 属性 A 在 时 刻 t 变 为 一 个 从 未 出 现 过 的 属性 值 v， 则 称 实体 E 的 属性 A 在 t 时 刻 发 生 


突变 点 /突变 记录 : 令 At 是 一 个 时 间 间 隔 ，A 是 一 个 单 值 属 性 或 者 多 值 属性 ， 记 录 r 是 表示 实体 E 在 时 刻 t 的 一 条 记录 ,， 且 r.A={r.a1， 
…,【.an} 为 属性 A 的 属性 值 。 如 果实 体 E 在 时 间 间 隔 At 内 没有 记录 与 记录 r 在 属性 A 上 具有 相同 的 属性 值 ， 则 称 r 是 一 条 突变 记录 ,，【r.t 是 一 个 突 


变 点 。 
表 6-2 中 ， 若 At 小 于 7 年 ， 则 r1、r4、r7、r8 是 实体 e1 在 工作 单位 “affiliation” 属 性 上 的 突变 记录 ， 而 2005、2007、2009 是 突变 点 。 
(3) 实体 突变 模型 
实体 突变 模型 ?的 核心 是 捕捉 对 应 同一 实体 的 一 组 记录 集 R 在 演化 属性 A 上 的 什 的 突变 概率 。 令 A 为 一 个 属性 ， 记 录 集 R{r1，.…，rn) 是 与 


实体 E 相 关 的 记录 和 集 ，t 是 一 个 时 间 点 ， 则 突变 函数 MA (R, t) 表示 实体 E 在 记录 集 R 上 t 时 刻 属性 A 上 有 一 个 突变 记录 的 概率 。 


SN 为 在 At 时 间 内 属性 A 的 属性 值 重 现 的 次 数 ， MA 为 在 At 时 间 内 属性 A 的 属性 值 不 重 现 的 次 数 ， 则 属性 值 重 现 的 概率 RA (At) 描述 如 
F: 





his, 
/ 7 / i == At =. t Jax 
ha, 十 me, eee 
Ra (At) = < pA (0..5» 
Ly 
a a a At > Lmax 
ha + MN nax 
0 其 他 


例如 ， 以 co-authors 值 “Licheng Jiao” 为 例 At=1 (1-year) 的 重 现 次 数 为 5， 即 1999~2000、2000~2001、2005~2006、 
2006~2007, 2009~2010, At=2 (2-year) 的 重 现 次 数 为 3， 即 1999~2001、2005~2007、2007~2009; 而 1-year 的 不 重 现 次 数 为 2， 即 
2001~、2007~，2-year 的 不 重 现 次 数 为 3， 即 2000~、2001~、2006~。 基 于 表 6-2，tmax=2010， 则 At=1 时 ，Rco_authors= “Licheng 


Jiao” (At) =5/ (5+2) =0.714，At=2 时 ，Rco-authors= "Licheng Jiao” (At) =3/ (3+3) =0.5。 如 图 6-1 所 示 。 


有 As ZX 


1999,2000,2001,2002,2003,2004,2005,2006,2007,2008,2009,2010 


图 6-1 表 6-2 中 co-authors 值 “Licheng Jiao” 的 转换 示例 


对 于 实体 E 的 一 组 记录 集 R，R 中 记录 ! 的 属性 A 的 值 在 t 时 刻 不 等 于 v 的 概率 描述 为 MveA (R, t) 


[| G@—RaG@-r.d) 


rER 
2 (6. 6) 
[[ RaG@—r.o+ [| Q-—RaG@—r.d) 


rE Ros rek.,.; 


MieaCR,t) = 





t 


gp, Rue (rl CR ar. t<i AvE .人 A 表示 记录 集 R 中 属性 A 的 值 等 于 v 且 时 间 礁 小 于 时 刻 t 的 记录 ， 分 子 是 属性 A 取 值 的 记录 不 
重 现 的 概率 的 积 ， 分 母 是 属性 A 取 值 v 的 记录 不 重 现 概率 的 积 和 属性 值 等 于 v 的 记录 重 现 概率 的 积 的 和 。 


则 属性 A 在 时 刻 t 的 变异 概率 描述 为 属性 A 的 所 有 属性 值 发 生变 异 的 概率 的 积 。 


MRD= [|Ma R (6. 7) 


vER.A 


(4) 实体 突变 模型 的 应 用 
实体 突变 模型 主要 应 用 于 属性 值 之 间 相 似 度 计算 的 权重 ， 用 于 精确 捕捉 基于 实体 内 属性 不 一 致 和 实体 间 属 性 一 致 的 情况 。 


首先 ,根据 公式 (6.7) ， 利 用 基于 什 的 突变 函数 MveA(R，t) 定义 r.A 中 所 有 值 在 r'.t 时 刻 不 重 现 的 概率 为 


M,e,a Rr t) = [| Mica CR’. t) (6. 8) 


verA 


对 于 给 定 的 记录 r 和 r,，r'.t-r.t=At， 分 析 如 下 场景 : 


场景 1: 假设 记录 r 和 r 在 时 刻 t 属 性 A 上 具有 不 同 的 属性 值 ， 如 果 在 ".t (r'.t>t) 时 刻 r.A 的 值 具有 高 不 重 现 概率 ， 则 记录 r 和 和 r' 不 可 能 对 应 
同一 个 实体 ， 因 此 应 将 高 权重 赋予 属性 A; 如 果 在 r'.t 时 刻 r.A 的 值 具有 高 重 现 概 率 ， 则 记录 r 和 r' 可 能 对 应 同一 个 实体 ， 即 属于 实体 内 属性 不 一 
致 问题 ， 因 此 也 应 将 低 权 重 赋予 属性 A。 


场景 2: 假设 记录 r 和 r 在 时 刻 t 属 性 A 上 具有 相同 的 属性 值 ， 如 果 r.A 的 属性 值 在 rt (r'.t>t) 时 刻 具 有 高 不 重 现 概率 ， 则 记录 r 和 r 在 r.t 时 
刻 属性 A 上 也 很 可 能 具有 不 相同 的 值 ， 即 属于 实体 间 属 性 一 致 问题 ， 因 此 应 将 低 权 重 赋予 属性 A;， 如 果 r.A 的 属性 值 在 r'.t 时 刻 具有 高 重 现 概 
率 ， 则 记录 r 和 r 在 r.t 时 刻 属性 A 上 很 可 能 具有 相同 的 值 ， 即 记录 r 和 "很 可 能 对 应 同一 实体 ， 因 此 应 将 高 权重 赋予 属性 A。 


综合 上 述 两 种 情况 ， 对 于 属性 值 越 相 似 ， 或 者 是 对 应 同一 实体 (突变 概率 小 ， 则 权 值 高 ) ， 或 者 是 实体 间 属 性 一 致 的 情况 (突变 概率 





大 ， 则 权重 低 ) ; 而 对 于 相似 度 较 小 的 属性 ， 或 者 对 应 不 同 实体 (无 突变 概率 ， 则 权重 高 ) ， 或 者 是 实体 内 属性 不 一 致 的 情况 (突变 概率 
高 ， 则 权 值 低 ) 。 因 此 ， 基 于 突变 函数 得 到 如 下 属性 权重 加 权 计 算 方式 为 
/ . / 
(LHn hl Mera Rr DD) Smna(lrsr 办 
wal rr ) =< ， 
i — Um : Mye,.A (Ror ° $) 其 他 
(6.9) 
其 中 ， 以 /为 控制 突变 函数 重要 性 的 参量 ， 9 人 A 为 学 习 的 属性 A 的 相似 度 立 值 。 
最 后 ， 将 公式 6.9) 的 属性 权重 应 用 到 相似 度 的 计算 公式 : 
/ . / 
wars?) © sim Gir) 
= / AE 
sim(r,r ) = 484 (6. 10) 
, wy (rer ) 
ACA 
3 条件 概率 模型 


对 于 实体 间 属性 一 致 的 情况 ， 条 件 概率 模型 也 是 一 种 很 好 的 解决 方案 。 条 件 概率 模型 通过 属性 值 的 分 布 来 捕捉 实体 间 属 性 一 致 的 情 
况 。 这 与 基于 频率 的 相似 度 加 权 方 式 相 类 似 。 


(1) 条 件 概率 模型 


对 于 给 定 的 记录 r 和 ~"， 事 件 3: r 和 r' 对 应 相同 的 实体 ， 则 Ss 事件 表示 r 和 r' 对 应 不 同 的 实体 。 事 件 A: r 和 r 在 属性 A 上 具有 相同 的 属性 
E, USA A 表示 rf0r 在 属性 A 上 具有 不 同 的 属性 值 。 相 应 的 计算 公式 如 下 。 


对 应 相同 实体 且 具 有 相同 属性 值 的 概率 表示 为 


P(A, At|S)= Pl(sima(rsr ) SO A [rt —r.t| 
r.e=r.e) (6. 11) 





= Af 


Bo, re=r ekra, OEA. 


对 应 相同 实体 但 具有 不 同属 性 值 的 条 件 概率 表示 为 


PAA, At|S) =1—PCA,At|S) (6. 12) 


例如 ， 以 表 6-1 中 e2{r2~r6} 为 例 ，At=2010-1991=19, 令 A=name, 则 P (A, At|S) =4/10, 


因为 ， 存 在 对 应 同一 实体 的 总 匹配 记录 对 为 5x4/2=10， 其 中 属性 name 的 值 相同 的 记录 对 有 { (r2, r3), (r4, r5), (r4, r6), 


(r5, r6) }. 


P(A, At| 7S) = 1— 4/10 = 6/10 


对 应 不 同 实体 且 具 有 不 同属 性 值 的 概率 表示 为 








PCA,At|7S)= P(sim,(7.7r’) <6 A |r.t’ —r.t| 
= Atlr.ef#r.e) (6. 13) 
其 中 ，r.e#r'.e 表 示 r 与 "对 应 不 同 的 实体 。 
对 应 不 同 实体 但 具有 相同 属性 值 的 条 件 概率 表示 为 
P(A,At|-S) = 1—PCA,At|7S) (6. 14) 


例如 ， 以 表 6-1 中 e1{r1} 和 e2{r2~r6) 为 例 ，At=2010-1991=19， 令 A=name,， 则 P (A, AtS) =3/5, 


因为 存在 对 应 不 同 实体 的 不 匹配 记录 对 为 5 对 ， 其 中 属性 name 的 值 不 相同 的 记录 对 有 { (r1, r4), (r1, r5), (r1, r6) }。 


P(A,At| aS) = 1 — 3/5 = 2/5, 


(2) 概率 模型 计算 方法 


对 于 每 一 个 实体 的 属性 ， 概 率 模型 应 用 两 个 数组 来 进行 概率 计算 。 给 定 两 个 数组 XA [At] 和 DA [At] ，XA [At] 保存 的 是 在 At 时 间 内 


对 应 相同 实体 的 两 条 记录 在 属性 A 上 具有 相同 的 属性 值 的 记录 对 个 数 ，DA [At] 保存 的 是 在 At 时 间 内 对 应 相同 实体 的 两 条 记录 在 属性 A 上 具 
有 不 同 的 属性 值 的 记录 对 个 数 。 相 应 的 计算 公式 如 下 。 





对 应 相同 实体 且 属 性 值 相 同 的 概率 表示 为 


Xalat] 


P(X,At|S) = -p Aaa (6. 15) 
Xal At | 十 Dal Ai 

对 应 相同 实体 且 具 有 不 同属 性 值 的 概率 表示 为 

PCA,At|S) = 1— P(A,Ar|S) (6. 16) 
例如 ， 以 表 6-1 中 e2{r2~r6} 为 例 ，At=2010-1991=19, SA=name, 则 XA [At] =4, DA [At] =6， 则 

P (X, At|S) =4/10, P (X, AtS) =1-4/10=6/10. 
对 应 不 同 实体 且 具 有 相同 属性 值 的 概率 表示 为 
P(A,At|—S)=1— P(—A,At|—S) 
R,r.A = 
= Pato) = Ire RA awl (6. 17) 


公式 (6.17) 中 ， 通 过 属性 值 在 实体 中 出 现 的 频率 的 分 布 来 估算 P (A, At 7S) ， 实 体 属 性 值 出 现 的 概率 表示 为 


rE R,r. A =v] 
LR | 


例如 ， 以 表 6-1 中 e1{r1} 和 e2{r2~r6) 为 例 At=2010-1991=19， 令 A=name，v=XinDong， 存 在 的 5 对 记录 对 中 有 两 对 记录 对 的 属性 
name 的 值 为 Xin Dong, MIP (TA, AtS) =2/5, 


Pa Cv) 


(3) 条 件 概 率 模 型 的 应 用 


将 条 件 概率 模型 应 用 于 相似 度 计 算 ， 用 于 协调 时 间 属 性 对 实体 识别 的 影响 ， 具 体 公 式 为 


>, wa (sim, (r,r), At) » sim, (r,7’) 


sim(r,7r’) = 4s4—______________________ (6. 18) 
X wa (sim, (Cryr At) 
AEA 


其 中 ，At=|rt-rtil，sims (r, r) 表示 记录 对 之 间 的 静态 相似 度 。 


当 sims (r, r') >6， 即 静态 相似 度 大 于 给 定 阔 值 时 : 


(1 一 P(A,Ati 一 S)) 
POA, At| mS) (6. 19) 


‘ / . / 
wa (Sim, (rr ), Ai) 一 sim, (sr ) 


. F 
= SMr ) 


当 sims (r, r') <6， 即 静态 相似 度 小 于 给 定 阔 值 时 : 


(1—PCA,Aé|S)) 
P(A,At|S) (6. 20) 


。 / . / 
wy, (sim, (757 JAE) = sim, (57 ) 


. / 
= sim, (737 ) 


4 .属性 值 转换 模型 


属性 值 转换 模型 内 用 于 捕捉 属性 值 之 间 的 转换 概率 。 对 于 给 定 的 实体 属性 A 的 属性 值 v， 该 模型 用 于 捕捉 在 At 时 间 间 隔 后 ， 属 性 值 变 为 v 
的 概率 。 属 性 值 转换 模型 的 核心 思想 是 实体 的 属性 值 的 变换 具有 一 定 的 规律 ， 且 与 时 间 间 隔 有 关 。 例 如 ， 一 个 人 的 职位 很 有 可 能 是 从 工程 师 
变 为 项 目 经 理 ， 而 不 太 可 能 变 成 房地产 经 纪 人 ， 一 个 人 从 工程 师 变 为 经 理 很 有 可 能 要 经 历 三 年 到 五 年 ， 而 不 是 一 年 ， 如 表 6-3 中 的 内 容 。 为 
计算 属性 值 转 换 概率 ， 首 先 构建 转换 表 ， 然 后 基于 转换 表 计算 转换 概率 。 


表 6-3 雇员 工作 岗位 申请 表 


S3 2000 2001 
Xe 2000 2002 


Aelita Manager 2003 2005 


David Brown 








Quest Software Manager 2006 2009 


=) T n 
Tom Apple 2005 2006 
Twitter n n 





(1) 构建 转换 表 


首先 将 对 应 同一 实体 的 记录 按时 间 戳 升序 排列 ， 然 后 通过 滑动 窗口 的 方式 得 到 属性 值 之 间 转 换 的 转换 表 ， 如 图 6-2 所 示 。 





了 el Analyst 
| Li | 


2002 2003 2004 2005 2006 






2000 2001 2007 2008 2009 2010 


图 6-2 ”实体 David 和 Tom 的 属性 Title 的 值 的 转换 示例 


如 表 6-4 所 示 的 属性 值 转换 表 为 表 6-3 中 Title 属 性 在 时 间 间 隔 为 3 的 时 间 内 属性 值 转换 的 统计 次 数 的 情况 ， 可 描述 为 一 ”。 


表 6-4 属性 值 转换 表示 例 





(v, v’) count 
(Engineer, Manager) ] 
(Manager, Manager) l 


(2) 转换 概率 计算 方法 


基于 属性 转换 表 可 以 得 到 属性 值 之 间 转 换 概率 的 函数 P (v，V，At，A) ， 即 在 At 时 间 内 ， 属 性 A 的 属性 值 从 v 变 为 v 的 概率 为 


T[LCov) | 
Dal oe) 


XEV 


Plv,v ,At,A) -一 C6, ZA) 


Hh, Ta [ (v, v) ] 表示 时 间 间隔 为 At 时 ， 属 性 值 从 v 变 为 v 的 次 数 c，Y 一 ol 3 vc((v，v )》，cETAt 为 v 在 转换 表 中 存在 
的 所 有 值 组 成 的 集合 VY，V 一 1v | gc， ))》，cETw)， 为 v 在 转换 表 中 存在 的 所 有 值 组 成 的 集合 V'。 


对 于 不 同 长 度 的 时 间 间 隔 At，P (v, v, At, A) 的 计算 方式 不 同 : 
1 At = 0 

Plot ,At,A) =< P(u,v ,At,A) AtE (0,L) (6.22) 
Plv,v ,L—1,A) MÈL 








其 中 ， 上 是 所 有 记录 对 应 的 最 大 的 时 间 间 隔 。 


例如 ， 结 合 表 6-3、 表 6-4、 图 6-2， 当 L=10，At=3 时 ， (Engineer, Manager) 值 对 转换 次 数 为 4， 描 述 为 


4 ( (Engineer, Manager) ) , V={Engineer, Manager, Analyst}, V'={Manager, Analyst}, 
对 于 属性 值 对 (v, v) : 


1) veV 且 v eV': 若 属性 值 转换 表 中 没有 属性 值 对 (v，V) ， 用 转换 表 中 概率 最 小 的 属性 值 转换 对 的 概率 进行 评估 。 


Pl(v,v ,At,A) = min{P(u,v ,At,A)} (6. 23) 


v EV 


2) vEV 且 v&V': 属性 值 v 在 转换 表 中 不 存在 ， 或 这 种 转换 情况 很 少 ， 采 用 同 1) 相同 的 方式 进行 概率 评估 。 


Plv,v ,At,A) -一 min{P(v,v ,At,A)} (6. 24) 


v EV 


3) vVÉVBv'EV': 52) 的 情况 正好 相反 ， 评 价 方式 为 取 所 有 vEV 转 换 为 v 的 均值 : 


> Talao T] 
P(v,v At, A) = 一 一 一 (6. 25) 


>» SIT L(vsu') ] 


v EV vEV 


4) vVEVEVEV': 对 于 v=v 的 情况 ， 评 估 方 式 为 转换 前 后 属性 值 均 相同 的 概率 : 


Tal osn] 
Plv,v , At, A) = -= (6. 26) 


>. SIT Lv) ] 


v EV vEV 





5) vÉvVEvÉV': 对 于 vzv 的 情况 ， 首 先 计算 属性 值 不 等 的 次 数 的 均值 : 


E(X) = > Pl(v,v At) © Ty, (vv) J (6. 27) 
VAY 
最 终 得 到 概率 : 
Pl(v,v ,At,A) = | (6. 28) 
> Lol Cad 
UF 


(3) 属性 值 转换 模型 的 应 用 


1) 演化 属性 的 权重 计算 。 


主要 解决 实体 内 属性 不 一 致 的 情况 。 对 于 给 定 的 记录 r"，r ， 当 演化 属性 A 上 的 相似 度 小 于 阔 值 时 ， 即 simA (r, r) <6， 表 示 记 录 r 是 记 
录 ! 的 一 个 变异 记录 ， 应 该 降低 属性 A 的 相似 度 权重 。 预 测 r 为 一 个 变异 记录 的 公式 ;为 : 


CEF 


r.tyr.t|,A) 





JI P(r.A,r.A, 
ER, i 


M.e r.A Cha 9 r t) Sa a a S a 
II P Gast A> Fataar Ea ,A) 


rE Ry. 








|] PC.A,r.A, r.tsr.t|,A) 
一 一 (6, 99) 
[| G Per. A,r’. A, lr.tsr. t|, A)) 


rER,,, 





其 中 ，Rv_rt=freRArt<rtAvErAj，Rv rt 是 记录 1 对 应 的 实体 记录 集中 时 间 截 小 于 r.t 的 集合 ， 公 式 (6.29) 的 分 子 为 由 Ry, rt 中 所 
有 的 记录 与 记录 r 的 属性 值 的 转换 概率 的 乘积 。 


因此 ， 属 性 A 的 相似 度 加 权 方 式 定义 为 : 


wa(rsr) =1—6, 。 Mena Rai wrt), sima(rsr’) <0 (6.30) 


公式 (6.30) 表示 当 两 条 记录 的 相似 度 小 于 阔 值 9 时 ， 则 降低 相似 度 的 权重 为 WA (r，r) ，61 的 值 可 以 根据 具体 的 情况 进行 灵活 的 设 


2) 实体 与 聚 类 的 相似 度 计算 。 
在 实体 与 聚 类 匹配 中 ， 应 用 属性 值 转换 模型 ， 面 向 属性 A 计 算 实体 e 的 实体 概要 中 e 和 聚 类 c 间 的 匹配 得 分 。 


实体 e 的 实体 概要 中 e 描 述 实体 e 的 属性 值 在 一 段 时 间 内 的 变化 情况 。 中 e[A] 描 述 实体 e 的 属性 A 的 演化 情况 ， 由 演化 的 时 间 序 列 描述 ， 如 
(f, L V) EQỌeAlL BF, (f, |, ，V》 摘 述 为 属性 A 在 时 间 区 间 [f，1 的 取 值 集合 为 V。 


例如 ， 依 据 表 6-3 中 可 知 : 


Ppavia| Organization | =| (2000,2001,{S3,XJek}), 
(2002, 2002, {XJek} > ,<2003,2005, {Aelita}, 


(2006, 2009, {Quest Software} > | 
Ppavial Title | =[ (2000, 2002, {Engineer} ), 
(2003,2009, { Manager} | 


应 用 属性 值 转 换 概率 均值 度量 实体 与 聚 类 的 转换 得 分 : 


>, PWV sil AD 
(f:l, VEB, [A] 


FAZNI meal 


transitP(®@,[ A ],c,A) = 
Hh, I=[f, BRAVARI, |'=[cctmin, tma ARX, RAD, V 为 聚 类 c 中 实体 属性 A 的 值 集合 。 


PUN iA AS >) | D)PW.V’,t’ —t,A) 
tel aad 


a S 
| I |r" | 


+ PO(V,V’,t—1 ,A) (6. 32) 


aS 


POV —2,A) A 0 33) 
|V Ea VEY 





6.2.3 ”基于 时 间 模 型 的 实体 识别 算 ; 


根据 不 同 的 时 间 模 型 ， 提 出 了 相应 的 基于 聚 类 的 实体 识别 算法 。 下 面 分 别 介绍 基于 时 间 衰 减 模型 的 实体 识别 算法 、 基 于 条 件 概率 模型 的 
实体 识别 算法 和 基于 属性 值 转换 模型 的 实体 识别 算法 。 
1. 基 于 时 间 豪 减 模型 的 实体 识别 算法 


面向 时 间 记 录 的 实体 识别 研究 最 早 提出 了 时 间 衰 减 模型 以 及 相应 的 实体 识别 算法 。 主 要 分 为 两 类 : 一 类 是 基于 结合 时 间 模 型 的 相似 度 计 
算 实 现时 间 记录 聚 类 ， 典 型 有 early binding], late binding 算 法 [0、adjusted binding 算 法 [0]; 另 一 类 是 ， 结 合 静 态 和 动态 两 个 阶段 
的 实体 识别 方法 ， 在 静态 阶段 ， 不 考虑 记录 的 时 间 特 性 ， 而 是 基于 传统 的 相似 度 计 算 公 式 实现 记录 聚 类 ; 在 动态 阶段 ， 结 合 时间 模 型 对 静态 
聚 类 结果 进行 协调 ， 得 到 最 后 的 聚 类 结果 。 同 一 聚 类 中 的 结果 为 匹配 的 同一 实体 。 该 类 算法 典型 有 SFDS (Static First，Dynamic Second) 
算法 Pl 和 AFDS (Agreement First, Dynamic Second) #341], 

(1) early binding 算 法 

early binding 算 法 首先 将 记录 按时 间 戳 升序 排列 ， 然 后 对 每 一 个 记录 上 与 已 经 存在 的 聚 类 C1，.…，Cn 进 行 相似 度 计 算 ， 决 定 是 与 已 有 的 
聚 类 合并 还 是 为 这 条 记录 单独 创建 一 个 聚 类 。early binding 算 法 的 步骤 如 下 : 

1) 计算 记录 "与 每 个 已 存在 的 聚 类 Ci (ie[1，n]) 的 相似 度 。 

2) 选择 与 记录 r 具 有 最 大 相似 度 的 聚 类 Cj， 如 果 sim (r, C) >6 (6 为 设置 的 阔 值 ) ， 将 记录 "与 聚 类 Ci 合并 ， 否 则 为 记录 r 创 建 一 个 新 的 


聚 类 Ci+1。 


3) 更 新 r 所 在 聚 类 C 的 聚 类 签名 (Clustersignature) ~=(R (v) , te (V) , ti (V) EP, R (V) 为 属性 值 \ 的 所 有 表示 形式 ; 


te (v) 和 tl (V) 为 属性 值 v 的 最 小 和 最 大 的 时 间 戳 。 在 合并 r 和 Ci 后 ， 需 要 对 聚 类 C 的 签名 进行 更 新 ， 具 体 如 下 : 
@ 将 记录 [的 属性 值 v 作 为 聚 类 C 的 最 后 一 个 属性 值 ; 
@ 对 于 每 一 个 具有 最 大 时 间 戳 的 属性 值 v， 需 要 保存 : 
a. 属 性 值 v 的 所 有 表示 形式 R (v) 。 


b. 属 性 值 v 的 最 小 和 最 大 的 时 间 戳 te (v) 和 tl (v) ， 属 性 值 v 的 最 大 时 间 戳 是 记录 "的 时 间 戳 rt。 属 性 值 v 的 最 小 时 间 戳 和 属性 值 v 的 所 有 
表示 的 维护 方法 具体 如 下 : 令 V 是 聚 类 Ci 的 已 有 属性 值 ， 令 smax 是 属性 值 v 和 属性 值 集合 R (v) 的 最 大 相似 度 ， 当 Smax>6h 时 ， 则 属性 值 v 的 
最 小 时 间 戳 是 te (vV) =te (V) ;属性 值 \ 的 集合 表示 形式 是 R (v) =R (v) UM 当 Smax<6 时 ， 则 属性 值 \ 与 已 有 的 属性 值 v 不 同 ， 则 


te (V) =rt, R (v) =M; 当 9h>Smax>6 时 ,te (vV) =sim (v, V) te (Vv) + (1-sim (v, v) ) rt, R (v) =R (v) Uih 
(2) late binding 算 法 


与 early binding 算 法 不 同 ，late binding 算 法 [并 不 急于 将 记录 与 已 有 的 聚 类 合并 ， 而 是 保留 所 有 的 记录 与 聚 类 的 相似 度 ， 最 后 依据 全 
局 确定 记录 所 属 聚 类 。late binding 算 法 维持 一 个 双向 图 (NR，NC，E) ， 其 中 Ng 表示 记录 的 集合 ，Nc 表 示 聚 类 的 集合 ，E 表 示 记 录 与 聚 类 
的 边 的 集合 ， 并 标明 记录 与 聚 类 之 间 的 相似 度 ， 如 图 6-3 所 示 ,，NR={r1,r2, r3}, Ne={C1, C2, C3}, E={ ( (r1, Cy), 1), 

( (r2, C1) ,0.5) , ( (r2, Co) , 0.5), ( (r3, C4) , 0.33) , ( (r3, C3) , 0.22) , ( (r3, C3) , 0.45) )}。 





图 6-3 ”双向 图 示例 


late binding 算 法 主要 包括 两 个 阶段 : 第 一 阶段 为 证 据 收集 阶段 ， 构 建 双 向 图 ; 第 二 阶段 为 决策 阶段 ， 移 除 不 需要 的 边 使 得 每 一 条 记录 


只 属于 一 个 聚 类 。 


证 据 收 集 阶 段 : 在 数据 预 处 理 阶 段 ，late binding 算 法 同 early binding 算 法 相似 。 对 于 每 一 条 记录 r 和 已 存在 的 聚 类 C1，.…，Cn， 具 体 处 


理 步骤 如 下 。 


1) 计算 记录 [与 每 个 已 存在 的 聚 类 Ci (ie[1，n]) 的 相似 度 sim (r，Ci) 。 
2) 当 创 建 一 个 新 的 聚 类 Cn+1 时 ， 进 行 如 下 处 理 : 
@ 对 于 每 个 ie[1，n]， 若 sim (r, C) <96， 则 记录 r 不 属于 任何 已 有 的 聚 类 ，6 为 相似 度 闪 值 。 


@ 对 于 ie[1，n]， 若 存在 一 个 聚 类 Ci， 使 得 sim (r, C) >9， 且 sims (r, C) >96， 其 中 ，sims (r, C) 是 不 考虑 衰减 的 相似 度 ， 则 记 


录 [r 属 于 聚 类 Ci。 


3) 规范 化 双向 图 的 边 权 值 。 边 权 值 为 一 条 记录 属于 一 个 聚 类 的 概率 值 ， 并 更 新 每 个 聚 类 的 签名 。late binding 的 聚 类 签名 包括 : 所 属 每 


一 聚 类 的 所 有 记录 及 其 概率 值 ， 以 及 同 early binding 算 法 需要 维护 的 一 个 最 小 时 间 戳 、 最 大 时 间 戳 和 相似 度 值 。 


下 。 


站 





决策 阶段 : 主要 根据 第 一 阶段 收集 的 证 据 来 决定 记录 属于 哪 一 个 聚 类 。 期 望 每 一 条 记录 都 隶属 于 具有 最 高 相似 度 的 聚 类 ， 具 体 的 过 程 如 


1) 选择 具有 最 高 权重 的 边 (ny, nce) 。 
2) 移 除 其 他 连接 nr 的 边 。 


3) 如 果 n" 是 第 一 条 被 选择 的 连 向 nc 的 边 ， 但 是 聚 类 < 是 为 记录 (rAr) 创建 的 ， 那 么 选择 边 (ne no) ， 并 移 除 其 他 所 有 连接 n' 的 


4) 返回 步骤 1， 直 到 所 有 的 边 都 被 移 除 或 者 选择 。 
(3) adjusted binding 算 法 


early binding 和 late binding 算 法 在 进行 记录 与 聚 类 的 相似 度 计 算 时 ， 记 录 只 能 与 已 存在 的 聚 类 进行 相似 度 比 较 ， 而 不 能 和 后 产生 的 聚 


类 进行 相似 度 计算 。 而 后 产生 的 聚 类 很 可 能 能 够 弥补 已 有 的 错误 。adjusted binding 算 法 贞 允 许 一 条 记录 与 后 产生 的 聚 类 进行 相似 度 计算 。 


adjusted binding 算 法 的 思想 源 于 E-M 算 法 ， 通 过 early binding 或 者 late binding 算 法 得 到 一 个 初始 的 划分 ， 然 后 迭代 地 调整 聚 类 ; 或 


通过 late binding 算 法 得 到 二 部 图 ， 然 后 迭代 地 调整 边 的 概率 值 。 具 体 的 算法 流程 如 下 。 


1) 初始 化 : 通过 early binding 或 者 late binding 算 法 得 到 一 个 初始 的 划分 。 

2) Estimation (E-step) : 计算 每 一 对 记录 与 聚 类 的 相似 度 ， 并 如 late binding 算 法 一 样 对 这 些 相似 度 进 行 标准 化 。 
3) Maximization (M-step) : 为 每 一 条 记录 选择 具有 最 大 概率 权重 的 聚 类 ， 如 late binding 算 法 的 步骤 。 

4) 终止 条 件 : 重复 步骤 2 和 步骤 3 直到 聚 类 结果 不 再 有 变化 。 

(4) SFDS 算 法 


基于 时 间 衰 减 模型 的 两 阶段 的 实体 识别 算法 SFDSP] (Static First, Dynamic Second) ， 具 有 快速 和 低 复杂 度 的 特性 。SFDS 算 法 主要 


包括 静态 和 动态 两 个 阶段 。 在 静态 阶段 ， 在 不 考虑 记录 属性 演化 的 情况 下 聚 类 对 应 相同 实体 的 记录 ， 同 时 维护 聚 类 签名 ， 包 括 聚 类 中 具有 最 
小 和 最 大 时 间 戳 的 记录 ;在 动态 阶段 ， 基 于 静态 阶段 得 到 的 初始 聚 类 ， 通 过 时 间 衰 减 模型 来 捕捉 实体 演化 的 情况 ， 即 将 时 间 衰 减 模型 用 于 相 


似 度 计算 ， 通 过 利用 静态 阶段 得 到 的 聚 类 签名 计算 聚 类 间 的 相似 度 来 减少 计算 代价 。 在 SFDS 算 法 中 ， 将 实体 演化 的 情况 转化 为 捕捉 实体 从 一 
个 聚 类 是 否 会 演化 为 男 一 个 聚 类 的 情况 ，SFDS 算 法 的 流程 图 如 图 6-4 所 示 。 







静态 相似 度 
困 数 sim 


静态 阶段 


初始 聚 类 :C={C,,…, C 】 
聚 类 签名 : Sc={rr , r} 


基于 时 间 模 型 的 
相似 度 函 数 sim, 


动态 阶段 


图 6-4 SFDS 算 法 流程 示意 


静态 阶段 : 给 定 一 组 原始 记录 作为 输入 ， 记 录 按 时 间 惟 升序 排列 ， 对 这 些 记 录 或 进行 合并 或 对 这 些 记录 单独 创建 一 个 聚 类 。 具 体 执行 步 
又 如 下 : 


1) 计算 记录 "与 聚 类 Ci (1sisn) 的 静态 相似 度 sims。 
2) 令 CmaxEC 是 与 记录 r 具 有 最 大 相似 度 的 聚 类 ， 如 果 sims (r，Cmax) <6s， 则 为 记录 r 创 建 一 个 聚 类 Cn+1， 并 令 Cmax=Cn+1。 


3) 将 记录 r 添 加 到 选择 的 聚 类 Cmax 中 ， 由 于 将 记录 按 升序 排列 ， 则 聚 类 Cmax 中 的 记录 也 是 按 升序 排列 的 ， 因 此 记录 "是 具有 最 大 时 间 戳 
的 记录 。 


4) 更 新 聚 类 Cmax 的 聚 类 签名 …， 聚 类 的 签名 由 聚 类 中 具有 最 小 和 最 大 时 间 戳 的 记录 组 成 。 


本 算法 中 的 聚 类 签名 定义 为 : 令 C={r1，r2，…，rn) 为 一 个 包含 n 个 记录 的 聚 类 ， 则 聚 类 的 签名 Sc 由 具有 最 小 时 间 戳 与 具有 最 大 时 间 戳 的 
记录 组 成 ， 即 Sc={f， 趾 ， 其 中 


= arg minr. ¢ (6. 34) 
rEC 


m= arg maxr. t (6:35) 
rEC 


本 算法 中 静态 阶段 的 相似 度 计算 不 考虑 时 间 衰 减 模型 ， 则 一 条 记录 与 一 个 已 有 的 聚 类 的 相似 度 的 计算 方式 为 : 


。 / 
>» sim, (7s? ) 
r E Se 


(6. 36) 


sim, (7) = 


| Sc | 
其 中 ， 记 录 之 间 的 相似 度 sims (r, r) 为 记录 的 各 个 属性 值 的 相似 度 的 平均 值 为 : 


. / 
SJ} wa rr ys sima (rr 2 


sim, (r,r ) = —_tay = C6257) 


动态 阶段 : 将 进一步 协调 静态 阶段 产生 的 聚 类 。 给 定 一 个 由 静态 阶段 产生 的 聚 类 集 C={C1，.….，Cm}， 一 个 动态 阶段 产生 的 聚 类 集 D= 
{D1，.…，Dn}， 动态 阶段 执行 步骤 如 下 (基于 时 间 衰 减 模型 计算 每 一 个 聚 类 Cj 与 已 存在 的 聚 类 D 汐 动态 相似 度 simg) : 


1) 令 DmaxED 是 与 肾 类 Cj 具有 最 大 相似 度 的 聚 类 ， 若 simd (Cj, Dmax) 小 于 阅 值 ， 则 创建 一 个 新 的 聚 类 Dnj1， 并 令 Dmax=Dn+1。 
2) 将 聚 类 Cj 与 聚 类 Dmax 进 行 合并 。 
3) 更 新 聚 类 Dmax 的 聚 类 签名 SDmax， 即 合并 聚 类 Dmax 与 聚 类 Cj 的 聚 类 签名 。 


更 新 聚 类 签名 的 过 程 如 下 : 对 于 给 定 的 两 个 聚 类 C 和 D， 对 应 的 聚 类 签名 为 Sc 和 Sp。 如 果 将 聚 类 C 和 D 合 并 ， 则 聚 类 的 签名 更 新 为 : 
Sc=SCUSD。 令 Sc={51，52，.…，Sm 为 聚 类 C 的 时 间 聚 类 签名 集合 ，s 是 在 静态 阶段 产生 的 聚 类 签名 。 


例如 ， 若 表 6-5 为 对 应 同一 实体 的 记录 组 成 的 聚 类 C， 则 该 聚 类 C 的 聚 类 签名 集合 如 表 6-6 所 示 。 


表 6-5 聚 类 C: 对 应 同一 实体 的 记录 集 
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RO-6 聚 类 C 的 聚 类 签名 集合 
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在 动态 阶段 ， 除 了 要 将 时 间 衰 减 模型 应 用 于 相似 度 计算 以 外 ， 在 计算 聚 类 之 间 的 相似 度 时 ， 使 用 聚 类 的 签名 进行 相似 度 计算 ， 计 算 两 个 
聚 类 签名 中 的 每 一 对 相似 度 大 于 阔 值 的 记录 的 相似 度 ， 并 取 平 均值 。 


> simy (71 srz) 
rira? ERC Cg 


simy(C,C’) = a | (6. 38) 
pet, 


其 中 ， 及 … .为 sc 和 Spb 的 动态 相似 度 高 于 阔 值 6 的 记录 对 集合 ， 具 体 如 下 : 


Re,c’,4, =n Fay | ds: 6 Se A a7 © oh ds; E Sc A dn 
} (6. 39) 





Cc Sj A sim, Cr; ora) = 0, 


(5) AFDS 算 法 


SFDS 算 法 中 ， 在 静态 阶段 不 考虑 实体 发 生 演化 的 情况 。 不 考虑 实体 内 的 不 一 致 性 是 安全 的 ， 但 是 不 考虑 实体 间 的 一 致 性 可 能 会 将 对 应 不 
同 实体 但 具有 相同 属性 值 的 记录 聚 类 在 一 起 ， 产 生 致 命 的 错误 。AFDS 算 法 D 改 进 了 SFDS 算 法 ， 提 出 在 静态 阶段 考虑 实体 间 的 一 致 性 ， 将 实 
体 间 一 致 豪 减 异型 应 用 于 相似 度 计算 ， 避 免 了 将 具有 相同 属性 值 但 是 对 应 不 同 实体 的 记录 聚 类 到 相同 的 聚 类 当中 ， 弥 补 了 SFDS 算 法 的 不 足 。 

AFDS 算 法 中 静态 阶段 的 相似 度 计算 思想 : 考虑 了 实体 间 一 致 性 的 可 能 ， 对 属性 的 静态 相似 度 进行 加 权 。 例 如 ， 对 于 给 定 的 记录 r1 和 r2， 
计算 r1 和 rz 的 静态 相似 度 ， 当 静态 相似 度 大 于 一 定 的 阔 值 的 时 候 ， 则 表明 两 条 记录 对 应 相同 的 实体 ， 或 者 对 应 不 同 的 实体 且 两 者 具有 一 定 的 
时 间 间 隔 。 对 于 这 种 情况 ， 对 r1 和 rz 的 属性 相似 度 进行 加 权 ， 相 似 度 的 计算 公式 为 


> w, (A, sim, (r ra) a | rist — Tost | ) ° sima (7 sra) 
ACA 





sim, (rı r2) = - 
S) w, (A, sim, Cristal rtrt) 
ACA 


(6. 40) 
对 应 的 加 权 方 式 为 
jid AAD sea 
1 其 他 


w,(A,s,At) = (6. 41) 


2. 基 于 条 件 概率 模型 的 实体 识别 算法 

基于 条 件 概率 模型 的 实体 识别 算法 不 完全 相同 于 已 有 的 基于 聚 类 的 方法 。 该 方法 是 基于 条 件 概率 模型 的 自 适应 的 实体 识别 方法 B]。 此 方 
法 的 核心 思想 是 ， 自 适应 地 对 记录 流 进行 匹配 分 类 。 通 过 不 断 地 记录 匹配 来 丰富 标签 数据 集 ， 进 而 使 属性 概率 更 加 精准 ， 基 于 属性 概率 的 相 
似 度 计算 也 更 加 准确 ， 最 终 使 记录 匹配 更 加 精确 。 

令 : R 为 已 知 的 实体 集合 或 为 空 ， 相 似 度 浮 数 simj(.，.) ”( 见 公式 (6.18) ~ (6.20) ) ， 记 录 匹 配 阔 值 em 以 及 数组 
A[At], D[At], V (说 明 : A[At] 是 在 At 时 间 内 对 应 相同 实体 的 两 条 记录 在 属性 A 上 具有 相同 的 属性 值 的 记录 对 的 个 数 ; D[At] 是 在 At 时 间 内 对 
应 相同 实体 的 两 条 记录 在 属性 A 上 具有 不 同 的 属性 值 的 记录 对 的 个 数 ; V 是 属性 A 取 值 集合 ) 。 


给 定 记 录 q， 算 法 的 具体 执行 步骤 如 下 : 


1) 从 R 中 过 滤 出 满足 q 的 条 件 的 候选 记录 集 C， 令 rEC; (HA: [是 满足 可 匹配 条 件 的 记录 候选 集 ) 。 

2) 针对 C 中 每 一 记录 r，At=|9q.t-r.t|， 计 算 r 与 q 的 匹配 相似 度 sim (q, r) ， 得 到 与 q 最 匹配 且 相 似 度 大 于 9m 的 候选 记录 rbest， 即 q 与 
rbest 是 匹配 记录 。 否 则 ， 为 R 中 无 匹配 的 记录 ， 为 q 分 配 新 的 标识 

3) 将 q 插 入 R， 同 时 维护 相应 的 指针 AIAtl]、DIAt 和 V， 以 及 所 有 属性 的 相关 概率 。 


当 后 续 记 录 到 来 时 ， 应 用 新 的 R 和 调整 后 的 属性 概率 值 ， 可 提升 后 续 匹 配 的 准确 性 。 
3. 基 于 属性 值 转换 模型 的 实体 识别 算法 


基于 属性 值 转换 模型 的 实体 识别 算法 内 采用 两 阶段 递归 实现 。 阶 段 1 得 到 聚 类 集合 ， 并 且 上 一 轮 的 处 理 结果 可 以 直接 应 用 到 下 一 轮 的 处 
理 过 程 中 ， 具 有 更 高 的 准确 性 。 两 个 阶段 的 聚 类 算法 如 下 。 

阶段 1: 将 输入 记录 重组 为 聚 类 集合 。 输 入 给 定时 间 记 录 集 ， 输 出 聚 类 集合 C， 对 于 每 一 个 聚 类 ce C， 用 聚 类 标签 Sc 描述 一 定时 间 段 内 的 
聚 类 中 的 实体 概要 中 e， 包 括 聚 类 的 时 间 间 隔 (tmin; tmax] 和 属性 值 (A，V，B》 ， 其 中 ，tmin 和 tmay 为 聚 类 中 记录 的 最 小 和 最 大 时 间 戳 ，B 


类 
为 属性 A 的 取 值 集合 V 的 可 信和 度 。 为 捕获 属性 值 转换 的 准确 性 ， 采 用 最 小 粒度 间隔 ， 对 于 冲突 值 ， 采 用 多 数 投票 决定 。 通 常 ， 聚 类 c 中 的 记录 r 
满足 rt> c.tmin。 


阶段 2: 递归 匹配 聚 类 与 实体 概要 ， 应 用 最 好 的 匹配 聚 类 来 增补 实体 的 概要 。 输 入 实体 e 概 要 中 e 和 聚 类 集合 C (cEC) ， 输 出 一 个 聚 类 
c， 使 聚 类 c 和 中 e 的 匹配 得 分 (match (Ve, c) ) 最 高 。 令 c 为 与 $e 具有 最 高 匹配 得 分 且 匹 配 得 分 大 于 阐 值 M， 则 修改 概要 中 e， 即 插入 
(ctmin，c:tmax，VAL) 到 中 e[A] 中 。 重 复 上 述 过 程 ， 找 到 下 一 个 最 高 的 匹配 得 分 的 聚 类 ， 修 改 概要 ， 直 到 集合 C 为 空 或 已 没有 匹配 得 分 高 
入 的 聚 类 。 


实体 概要 中 e 与 聚 类 c 的 匹配 概要 match (Pe, c) 描述 如 下 : 


match(@。,c) = Tar nsitP(,[A],c,A) (6. 42) 


6.3 ”基于 众 包 的 实体 识别 技术 


众 包 [6， “是 一 种 公开 面向 互联 网 大 众 的 分 布 式 的 问题 解决 机 制 ， 它 通过 整合 计算 机 和 互联 网 上 未 知 的 大 众 来 完成 计算 机 单独 难以 完成 的 
任务 。 众 包 的 优势 在 于 人 可 以 利用 领域 知识 来 进行 相关 的 判断 ， 能 够 有 效 地 改善 实体 识别 的 准确 性 。 根 据 大 众 参 与 的 模式 ， 众 包 分 为 协作 式 
众 包 和 竞赛 式 众 包 [1]。 协 作 式 众 包 模式 指 由 大 众 协 作 完 成 任务 ， 如 维基 百科 (Wikipedia) 开放 编辑 平台 。 而 竞赛 式 众 包 模式 是 指 由 个 人 独 
立 完成 任务 ， 并 支付 给 任务 完成 人 一 定 报酬 ， 典 型 有 Amazon Mechanical Turk (AMT) 和 Crowdflower 等 。 应 用 众 包 平台 ， 核 心包 括 如 下 
关键 问题 : @ 如 何 设计 问题 形式 ， 即 如 何 将 “人 类 智能 任务 ” (Human Intelligence Task, HIT) 提供 给 大 众 来 处 理 ; @ 如 何 选择 性 地 产生 
HIT， 目 标 是 最 小 代价 地 获得 最 大 收益 ; @ 如 何 高 质量 地 整合 众 包 结果 。 


基于 众 包 的 实体 识别 B，3] 是 指 结合 竞赛 式 众 包 平台 处 理 实体 识别 问题 。 或 者 说 ， 是 人 -机 混合 的 实体 识别 方法 。 基 于 众 包 的 实体 识别 处 
理 过 程 典型 包括 三 个 步骤 : 首先 ， 基 于 机 器 面向 所 有 数据 进行 预 处 理 ， 将 待 验证 的 匹配 对 提交 到 众 包 平台 上 ; 之 后 ， 基 于 众 包 平台 由 人 验证 
最 可 能 的 匹配 对 ; 最 后 ， 通 过 分 析 平 台 返 回 的 验证 结果 ， 确 定 最 后 的 匹配 结果 。 


基于 众 包 解决 实体 识别 的 关键 研究 点 在 于 如 何 确 定 最 小 数量 的 待 验证 的 匹配 对 ， 目 标 是 最 小 代价 地 获得 最 佳 收益 。 


已 有 基于 算法 的 实体 识别 方法 虽然 已 有 效 地 改进 了 数据 的 质量 ， 但 距离 数据 完好 性 还 存在 一 定 差距 。 一 方面 ， 由 于 数据 的 语义 异 构 、 数 


据 演化 等 特性 ， 导 致 基于 机 器 的 方法 很 难 准确 匹配 。 例 如 ， 无 法 区 分 “苹果 和 谷歌 ”与 “苹果 和 香 蓄 ” 是 不 同 的 两 种 关系 ; “iPad Two 

16GB WiFi White” #0 “iPad 2nd generation 16GB WiFi White” 虽 然 是 同一 个 实体 ， 但 基于 Jaccard 相 似 度 计算 公式 得 到 的 相似 度 仅 为 
0.57， 不 能 确定 是 同一 个 产品 。 另 一 方面 ， 结 合 传递 匹配 或 递归 匹配 的 实体 识别 方法 可 能 会 带 来 错误 放大 问题 。 例 如 ， 如 果 a 和 b 为 同一 实 
体 ，b 和 < 是 同一 实体 ， 那 么 根据 传递 性 ，a 和 < 显然 也 是 同一 个 实体 。 然 而 ， 若 a 和 b 为 同一 实体 识别 有 误 ， 将 导致 后 续 传 递 的 实体 识别 错误 。 
已 有 文献 [10] 通 过 大 量 实验 验证 了 当前 实体 识别 技术 在 一 些 领 域 中 存在 的 局 限 性 。 例 如 ， 在 电子 商务 领域 中 ， 无 论 是 基于 相似 度 计算 的 实体 
识别 方法 还 是 基于 学 习 的 方法 ，F-Measure 都 只 达到 了 约 70%。 可 见 ， 若 能 在 识别 过 程 中 保证 识别 的 准确 性 ， 将 有 助 于 改进 数据 的 全 局 质 


= 
Eo 


为 此 ， 提 出 了 基于 众 包 的 实体 识别 方法 。 此 识别 方法 的 思想 是 : 通过 结合 人 的 智慧 ， 提 高 实体 识别 的 准确 率 。 


6.3.1 一 个 实例 


当前 基本 的 基于 机 器 的 实体 识别 技术 ， 如 基于 相似 度 计 算 的 方法 或 基于 机 器 学 习 的 方法 ， 都 具有 准确 率 不 高 的 局 限 性 。 例 如 ， 表 6-7 所 
示 为 电子 产品 样 例 ， 若 基于 Jaccard 相 似 度 算法 计算 产品 相似 度 ， 将 得 到 9x8/2=36 对 相似 度 值 。 假 定 : 相似 度 大 于 0.7 的 记录 对 一 定 是 相似 
对 ， 对 应 同一 实体 ; 而 小 于 0.3 的 记录 对 一 定 不 对 应 同一 实体 ;相似 度 介 于 0.3~0.7 的 记录 对 无 法 确定 ( 见 表 6-8) 。 这 样 会 导致 准确 性 很 低 。 
为 提高 实体 识别 准确 性 ， 可 以 将 无 法 确定 是 否 是 同一 实体 的 记录 对 ( 即 相似 度 在 0.3~0.8 的 记录 对 ) 供 人 工 识别 。 也 就 是 将 相似 度 介 于 
0.3~0.8 的 记录 对 提交 给 大 众 ， 通 过 大 众 识别 进一步 确定 (r1, r2). (r1, r7) 、(r3,r4) 、(r2,r7) 也 是 表述 同一 实体 。 可见， 结合 
机 器 与 人 工 进行 实体 识别 可 有 效 改 善 实体 识别 的 准确 性 。 


ROT ”电子 产品 示例 1 

















ID Product Name Price 
rl iPad 24 generation 16GB WiFi White $ 490 
r2 iPad 16GB WiFi White $ 469 
r3 iPhone 4th generation White 16GB $ 545 
r4 Apple iPhone 4 16GB White $520 
r5 Apple iPhone3" generation Block 16GB $ 375 
r6 iPhone 4 32GB White $ 599 
rT AppleiPad2 16GB WiFi White $ 499 
r8 AppleiPod shuffle 2GB Blue $ 49 

r9 AppleiPod shuffle USB Cable $19 


表 6-8 基于 Jaccatd 相 似 度 算 法 计算 的 产品 相似 度 片段 


sim sim 
(r1, r2)( A p a r7) a r4) at r7) A y a pS ae r7) N. r5) a p" (.，.) 


0.75 | 0.50 | 0. 0.43. | 0. | 0. 43. | 0. | 0.43. | 0. | 0.43. | 0. 0. 38 | 0. | 0.38 | 0. 0.38 | 0. | 0. 38 | <0. 3 





6.3.2 ”基于 众 包 的 实体 识别 框架 


基于 众 包 的 实体 识别 通常 分 为 两 类 。 一 类 是 将 众 包 结合 到 实体 识别 过 程 的 某 一 步骤 中 ， 用 于 解决 机 器 难以 解决 的 问题 。 例 如 ， 只 将 众 包 


用 于 验证 阶段 ， 通 常 是 先 通过 启发 式 算法 减少 候选 匹配 对 个 数 ， 之 后 再 基于 众 包 验证 匹配 的 候选 对 。 再 如 ， 在 实体 聚 类 中 基于 众 包 提升 实体 
相似 度 计 算 的 准确 性 ， 来 提高 聚 类 的 精确 性 。 另 一 类 是 将 众 包 结合 到 实体 识别 的 多 步 实现 过 程 中 ， 如 基于 模型 的 实体 识别 过 程 中 ， 基 于 众 包 
选择 实体 分 块 规则 、 在 学 习 模 型 过 程 中 基于 众 包 标注 样 例 等 。 
1. 基 于 众 包 的 基本 实体 识别 框架 

基于 众 包 的 实体 识别 的 基本 处 理 过 程 如 图 6-5 所 示 ， 具 体 说 明 如 下 : 

1) 首先 匹配 分 析 (如 相似 度 计算 ) 原始 实体 集 ， 得 到 确定 的 同一 实体 以 及 候选 实体 对 ， 确 定 的 同一 实体 为 部 分 识别 结果 。 

2) 候选 实体 对 依据 生成 策略 确定 众 包 任务 HIT， 并 提交 给 众 包 平台 。 

3) 众 包 结 果 数 据 通 过 验证 分 析 后 ， 得 到 被 验证 结果 。 

4) 验证 结果 再 经 过 匹配 分 析 ， 得 到 确定 的 同一 实体 和 候选 实体 对 。 


5) 识别 结束 ， 得 到 识别 结果 集 或 进入 下 一 轮 众 包 过 程 。 
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识别 结果 集 


图 6-5 基于 众 包 验 证 候选 匹配 对 的 基本 的 实体 识别 框架 


2. 结 合 多 众 包 处 理 步 骤 的 实体 识别 框架 


在 实体 识别 过 程 中 ， 存 在 许多 机 器 难以 确定 的 问题 ， 例 如 ， 面 对 大 数据 实体 识别 过 程 中 ， 为 提高 实体 识别 效率 ， 先 对 待 识别 实体 集 进行 
分 块 ， 之 后 分 块 并 行 处 理 ， 如 何 选择 分 块 规则 、 如 何 定义 匹配 器 (如 采用 机 器 学 习 方法 训练 匹配 模型 ) ， 以 及 基于 匹配 器 获得 的 候选 匹配 对 
的 验证 问题 等 。 对 于 实体 识别 过 程 中 难以 采用 机 器 决定 或 判别 的 场景 ， 均 可 以 应 用 众 包机 制 提高 实体 识别 的 准确 性 。 图 6-6 为 融合 多 阶段 
(分 块 阶段 、 匹 配 阶段 和 验证 阶段 } 众 包 的 实体 识别 框架 结构 ， 分 别 在 分 块 阶段 、 匹 配 阶段 和 验证 阶段 应 用 众 包 策略 ， 改 善 实体 识别 的 精准 
性 。 例 如 ， 在 融合 多 步 众 包 的 实体 识别 [1 1 中， 通过 抽样 对 比 的 方式 ， 从 机 器 学 习 库 中 选择 最 佳 的 机 器 学 习 。 其 中 ， 使 用 众 包 来 生成 训练 集 、 
事实 集 ， 用 于 训练 匹配 器 ; 基于 众 包 选择 Top-k 分 类 规则 ; 基于 投票 减少 人 工 误差 等 。 通 过 利用 众 包 的 优势 来 减少 对 专业 开发 者 的 依赖 。 在 
自 适应 的 众 包 实体 识别 [1<，13] 中 ， 和 迭代 实体 识别 过 程 的 每 一 次 迭代 都 应 用 众 包 验证 候选 匹配 对 ， 返 回 的 众 包 结果 通过 概率 计算 模型 确定 候选 
匹配 对 ， 同 时 基于 决策 生成 下 一 次 迭代 的 候选 匹配 对 ， 进 入 下 一 次 迭代 过 程 。 同 时 ， 依 据 人 们 的 决策 结果 和 精华 用 户 的 能 力 ， 作 为 下 次 众 包 
中 任务 分 配 的 依据 。 通 过 在 迭代 过 程 中 自 适用 众 包 过 程 ， 能 够 进一步 提高 众 包 实体 识别 的 有 效 性 。 





候选 匹配 对 验证 过 程 人 
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图 6-6 ”融合 多 阶段 众 包 的 实体 识别 框架 


6.3.3 ”基于 众 包 的 实体 识别 的 核心 问题 


基于 众 包 的 实体 识别 典型 分 为 两 类 方法 。 一 类 是 仅 用 于 识别 过 程 中 的 匹配 验证 ， 即 由 HIT 生 成 、 用 户 基于 众 包 平台 验证 以 及 基于 返回 结 
果 确 定 匹 配对 的 实现 过 程 。 也 可 将 众 包 融入 实体 识别 的 聚 类 过 程 或 实体 识别 的 进 代 过 程 中 ， 如 在 基于 众 包 的 聚 类 过 程 中 ， 将 众 包 融入 聚 类 过 
程 的 实体 相似 度 计 算 中 ,依据 实 体 相似 度 决 定 实体 是 否 属于 同一 个 聚 类 ， 能 够 有 效 改善 实体 间 的 相似 度 计算 精度 ， 提 高 聚 类 的 准确 性 。 在 该 
类 结合 众 包 的 实体 识别 过 程 中 ， 都 包括 候选 匹配 对 选择 、 众 包 策略 选择 和 匹配 结果 确定 三 个 基本 的 步骤 。 另 一 类 ， 是 在 实体 识别 流程 的 多 个 
步骤 中 融合 了 众 包 实现 ， 如 图 6-6 所 示 。 


1. 候 选 匹配 对 选择 


基于 众 包 的 实体 识别 首先 需要 生成 候选 匹配 对 ， 和 其 他 的 基本 一 致 。 然 而 ， 尽 管 利 用 众 包 的 实体 识别 准确 率 较 高 ， 但 时 间 和 人 金钱 代价 也 
都 较 高 。 因 此 通常 需要 对 生成 候选 匹配 对 有 一 个 初步 筛选 的 过 程 。 候 选 匹 配对 选择 有 以 下 几 种 方法 。 

1) 基于 谓词 过 滤 的 方法 : 此 方法 是 最 简单 的 选择 匹配 对 方法 ， 通 过 定义 简单 的 谓词 规则 来 选择 可 能 表示 同一 实体 的 候选 匹配 对 。 例 
如 ， 对 人 的 信息 记录 匹配 对 进行 筛选 时 ， 可 以 把 人 的 性 别 标 签 作为 谓词 筛选 项 。 或 仅 选 择 电子 产品 中 的 笔记 本 电脑 产品 进行 一 致 验证 。 

2) 基于 相似 度 阅 值 的 方法 : 此 方法 是 基于 匹配 模型 计算 出 任意 一 对 匹配 对 的 相似 度 ， 选 择 相似 度 高 于 阔 值 的 匹配 对 为 候选 匹配 对 。 例 
如 ， 实 体 对 相似 度 大 于 0.7 为 候选 匹配 对 。 

3) 基于 分 类 模型 的 方法 : 基于 分 类 学 习 模 型 对 待 匹 配 实体 数据 集 进行 分 类 ， 每 一 分 类 为 一 组 候选 匹配 集 。 该 方法 通过 缩减 验证 范围 来 
减少 验证 代价 。 例 如 ， 将 笔记 本 电脑 产品 按 品牌 、 型 号 进行 分 组 ， 之 后 将 匹配 验证 限制 在 各 个 产品 组 内 。 


2. 众 包 策略 选择 
在 选择 候选 匹配 对 之 后 ， 我 们 需要 将 这 些 候选 匹配 对 发 布 成 任务 提交 给 众 包 平台 。 发 布 并 提交 众 包 任务 是 众 包 中 的 核心 问题 ， 期 望 发 布 
的 任务 要 能 够 准确 、 及 时 地 被 众 包 平台 上 的 大 众 处 理 ， 同 时 尽 可 能 地 减少 费用 。 在 众 包 策 略 选择 中 通常 需要 综合 考虑 以 下 两 个 因素 。 


1) 众 包 任务 生成 : 由 于 众 包 平台 特殊 的 处 理 模式 ， 在 提交 完 任务 之 后 ， 需 要 等 待 较 长 的 时 间 。 一 方面 ， 参 与 众 包 的 大 众 希望 选择 一 个 
粒度 较为 合适 的 人 工 任务 ， 从 而 提高 他 们 的 工作 效率 ， 并 获得 好 的 收益 。 另 一 方面 ， 众 包 用 户 希 望 众 包 任务 尽量 简单 化 ， 有 助 于 保证 众 包 质 
量 和 效率 ; 在 一 个 人 工 任务 中 包含 尽 可 能 多 的 匹配 对 ， 提 高 众 包 算法 的 效率 ， 同 时 降低 众 包 代价 。 因 而 ， 如 何 生成 批 处 理 的 人 工 任务 ， 并 平 
衡 花费 、 质 量 和 时 间 是 众 包 中 需要 考虑 的 一 个 重要 问题 。 下 面 是 典型 的 几 种 众 包 任务 生成 策略 [14。 


基于 成 对 的 批 处 理 方法 : 将 候选 匹配 对 简单 地 按照 人 工 任务 的 最 大 量 划 分 ， 即 每 个 人 工 任务 中 都 由 候选 匹配 对 组 成 。 例 如 ， 在 一 个 HIT 
需要 用 户 判 断 1 和 2、5 和 7 是 否 为 同一 实体 。 


基于 禾 的 批 处 理 方法 : 给 出 一 篮 实体 识别 记录 ， 要 求 大 众 判断 哪 几 个 代表 同一 实体 。 例 如 ， 在 HIT 上 需要 用 户 判断 1、2、5、7 哪 几 个 是 
同一 类 。 分 艇 工作 已 被 证 明 是 k- 子 图 的 简化 问题 ， 是 NP 难 的 ， 可 以 采用 优化 方法 来 解决 。 实 验证 明 ， 分 簇 的 方法 比 成 对 的 方法 更 适合 众 包 。 


2) 众 包 判断 的 顺序 : 不 同 的 众 包 判断 顺序 影响 着 实体 识别 的 时 间 、 质 量 和 费用 。 为 此 ， 在 进行 众 包 过 程 中 ， 还 需要 考虑 众 包 判断 的 顺 
序 问题 。 文 献 [15] 采 用 了 全 局 分 析 来 解决 问题 。 就 是 希望 在 生成 人 工 任务 的 时 候 ， 先 选择 能 够 最 大 化 准确 率 的 记录 对 问题 ， 并 且 提 出 了 以 下 
两 种 解决 方案 。 


基于 穷 举 的 顺序 选择 方法 : 采用 蛮 力 评价 所 有 的 顺序 ， 最 后 选择 最 佳 的 顺序 。 每 次 计算 都 独立 于 之 前 的 计算 过 程 ， 计 算 代价 高 。 


基于 优化 的 顺序 选择 方法 : 采用 启发 式 方法 或 优化 策略 确定 候选 实体 对 以 及 实体 对 的 识别 顺序 。 例 如 ， 文 献 [15] 首 先 应 用 蔓 校 法 去 除 无 
需 判 断 的 实体 对 ， 即 忽略 相似 度 大 或 者 相似 度 较 小 的 记录 对 ， 之 后 应 用 蒙特 卡 洛 估计 实体 识别 的 准确 率 。 每 次 计算 的 结果 都 可 以 用 于 下 次 和 迭 
代 的 计算 过 程 ， 不 需要 重复 的 计算 过 程 ， 以 此 来 减少 众 包 代价 。 


3. 匹 配 结果 确定 


前 面 的 方法 虽然 考虑 了 约 减 过 程 ， 但 是 都 是 在 生成 任务 阶段 ， 对 于 返回 的 人 工 处 理 结果 ， 还 希望 能 够 有 相应 的 处 理 过 程 。 典 型 有 基于 投 
票 的 方法 、 结 合 传递 性 的 方法 、 黄 金 标准 数据 法 、 期 望 最 大 化 的 评估 方法 等 。 


1) 基于 投票 的 方法 : 多 数 投票 法 (11 是 将 一 个 任务 分 配给 多 个 工作 者 独立 回答 ， 然 后 将 答案 通过 投票 方式 进行 整合 ， 将 大 多 数 的 意见 
作为 最 终 的 正确 结果 。 多 数 投票 法 假定 每 个 工作 者 的 准确 率 一 致 。 


2) 黄金 标准 数据 法 [16，1 /]; 通过 设计 一 些 具有 标准 答案 的 问题 作为 测试 题目 ， 在 任务 开始 前 或 者 在 任务 进行 过 程 中 由 工作 者 回答 ， 根 
据 答题 结果 来 识别 欺诈 者 ， 同 时 对 工作 者 的 准确 率 进行 评估 ， 进 而 依据 贝 叶 斯 模型 或 概率 模型 获得 任务 的 最 终结 果 。 例 如 ， 文 献 [18] 利 用 由 
叶 斯 理论 将 人 工 的 答题 准确 率 和 人 工 给 出 的 答案 结合 起 来 得 到 最 终 的 结果 。 文 献 [12] 提出 了 一 种 基于 因子 图 的 概率 模型 ， 通 过 综合 人 工 答 
案 、 人 工 的 答题 准确 率 等 因素 得 到 结果 。 黄 金 标准 数据 法 假定 了 工人 的 答题 准确 率 是 固定 的 。 


3) 期 望 最 大 化 的 评估 方法 (EM) [12,19] ;通过 对 任务 结果 和 工作 者 的 准确 率 不 断 进行 迭代 估计 ， 直 至 收敛 得 到 任务 结果 。EM 算 法 
能 够 实现 对 任务 结果 的 精确 评估 ， 但 是 当 任 务 或 工作 者 较 多 的 时 候 ， 算 法 运行 效率 较 低 。 


4) 结合 传递 性 的 处 理 方法 


通过 实体 匹配 的 传递 关系 来 减少 所 需 人 工 任务 的 数量 。 例 如 ， 如 果 a 和 b 为 同一 实体 ，b 和 < 也 是 同一 实体 ， 那 么 a 和 < 显然 也 是 。 如 果 a 和 
b 为 同一 实体 ，b 和 <c 不 是 同一 实体 ， 显 然 3 和 c 不 是 同一 实体 。 通 常 ， 在 生成 HIT 任 务 顺序 时 ， 优 先 选择 高 匹配 概率 的 识别 对 ， 在 匹配 结果 确定 
过 程 中 考虑 传递 关系 ， 以 此 来 提高 实体 识别 效率 。 


6.3.4 ”基于 众 包 的 实体 识别 方法 的 特点 
1 高 准确 率 


同 其 他 实体 识别 方法 相 比 ， 基 于 众 包 的 实体 识别 方法 的 识别 准确 率 更 高 。 尤 其 是 对 于 一 些 特殊 数据 ， 基 于 众 包 的 实体 识别 可 以 充分 利用 
人 的 推理 和 联想 能 力 。 例 如 ， 人 可 以 通过 对 两 条 记录 分 析 ， 提 取出 隐藏 的 信息 ， 进 一 步 给 出 更 准确 的 判断 。 这 是 目前 的 机 器 学 习 算法 所 达 不 
到 的 。 


2. 高 代价 


基于 众 包 的 实体 识别 方法 具有 高 准确 率 ， 但 同时 也 需要 化 费 一 定 的 时 间 和 金钱 。 因 为， 任务 发 布 到 平台 之 后 ， 需 要 等 待人 工 去 处 理 ， 并 
且 按 照 人 工 处 理 的 任务 数量 去 计 费 。 可 见 ， 在 基于 众 包 的 实体 识别 方法 中 ， 众 包 算 法 的 时 间 代价 和 金钱 代价 至 关 重 要 ， 期 望 用 最 小 人 花费 从 众 
包 结 果 中 获取 最 多 的 有 用 信息 ， 如 生成 最 简单 的 任务 、 需 要 最 少 的 人 力 ,减少 对 人 工 的 依赖 等 。 


3. 适 应 性 好 


众 包 作为 一 种 利用 人 工 判断 的 算法 ， 可 以 运用 到 实体 识别 的 整个 流程 中 ， 例 如 利用 众 包 来 参与 机 器 学 习 算 法 的 选择 过 程 和 训练 等 。 通 过 
众 包 可 以 减少 对 设计 实体 识别 过 程 的 专业 人 员 的 依赖 ， 也 能 进一步 提高 算法 对 不 同 领域 数据 的 适应 性 。 


6.4 ”隐私 保护 下 的 实体 识别 技术 


随 着 科技 的 不 断 进步 ， 数 据 正 快 速 地 增长 和 累积 。 减 少数 据 宛 余 ， 实 现 数据 共享 已 成 为 大 数据 时 代 的 首要 任务 。 实 体 识别 在 金融 、 医 
疗 、 政 府 等 领域 具有 广泛 的 应 用 前 景 。 但 是 ， 当 记录 信息 涉及 个 人 隐私 或 敏感 信息 时 ， 我 们 必须 要 考虑 记录 信息 的 隐私 保护 问题 。 因 此 ， 近 
年 来 国内 外 掀起 了 研究 隐私 保护 下 的 实体 识别 (Privacy-Preserving Record Linkage, PPRL) 的 热潮 。PPRL 技 术 [*0 可 以 保证 在 实体 识别 
的 过 程 中 ， 只 有 最 终 匹 配 结果 被 各 数据 源 间 共 享 ， 其 他 未 匹配 的 记录 信息 均 未 被 泄露 。 例 如 ， 前 文 提 到 的 病人 的 诊断 信息 查找 案例 ，PPRL 技 
术 可 以 既 找 出 某 位 患者 在 各 医院 的 医疗 信息 ， 又 保证 各 医院 其 他 患者 的 医疗 信息 不 被 泄露 。 因 此 ，PPRL 技 术 不 仅 具 有 理论 研究 价值 ， 而 且 有 
着 重要 和 迫切 的 实际 应 用 价值 。 


PPRL 的 定义 1: 假设 01，02，.…，OP (P>2) 分 别 拥有 数据 集 D1，D2，.…，Dp， 在 找 出 D1，D2，.…，Dp 中 的 公共 实体 的 同时 ， 其 
他 未 匹配 的 记录 信息 均 未 被 泄露 。 


假设 有 两 个 数据 集 DA 和 DB， 下 面 说 明 在 隐私 保护 下 找 出 DA 和 De 中 公共 实体 的 过 程 ， 如 图 6-7 所 示 。 


步骤 1: 首先 两 个 参与 方 统一 待 比较 的 属性 集 ， 然 后 应 用 隐私 分 块 (Private blocking) 技术 在 安全 的 环境 下 对 DA 和 DB 进行 分 块 处 理 ， 
以 此 减少 候选 匹配 对 (Candidate pair) 的 数量 ， 提 高 可 扩展 性 。 


步骤 2: 接 下 来 应 用 隐私 保护 下 的 记录 间 对 比 技术 (Private comparison) 比 对 候选 记录 对 ， 并 应 用 隐私 保护 下 的 分 类 技术 (Private 
classification) 得 到 匹配 结果 集 。 最 后 ， 应 用 隐私 保护 下 的 评估 技术 (Private evaluation) 对 匹配 结果 进行 评估 。 


步 又 | 步骤 2 


1 1 1 1 
I 1 1 1 
| i 。 3 
; Private | Private Private | Private 
A blocking [7 comparison classification fi evaluation 
I 1 
1 1 
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图 6-7 ”PPRL 处 理 过 程 示 
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下 面 分 别 介绍 实体 识别 中 用 到 的 隐私 保护 技术 以 及 对 PPRL 的 评估 。 


6.4.1 ”实体 匹配 中 隐私 保护 的 分 类 


PPRL 中 的 隐私 保护 技术 主要 考虑 以 下 两 个 方面 : 如 何 保证 数据 应 用 过 程 中 不 泄露 隐私 ; 如 何 更 有 利于 数据 的 应 用 。 当 前 ， 隐 私 保护 领域 
的 研究 工作 主要 集中 于 如 何 设计 隐私 保护 原则 和 算法 ， 更 好 地 达到 这 两 方面 的 平衡 。 我 们 把 典型 的 实体 匹配 隐私 保护 技术 分 为 三 个 类 别 2]， 
分 别 是 数据 扰乱 技术 、 数 据 重 构 技 术 和 数据 加 密 技术 。 


1 数据 扰乱 技术 


数据 扰乱 技术 主要 有 两 大 方法 ， 一 种 是 k- 匿 名 ， 另 一 种 是 差分 隐私 保护 。 它 们 都 是 通过 对 原始 数据 添加 噪声 来 实现 隐私 保护 的 。 
(1) k- 匿 名 

在 给 出 k- 匿 名 的 定义 前 ， 先 介绍 记录 中 属性 的 分 类 办: 

1) 标识 符 : 能 够 唯一 标识 某 条 记录 的 属性 ， 如 身份 证 号 等 。 

2) 准 标识 符 (Quasi Identifier, QI) : 具有 潜在 标识 某 条 记录 能 力 的 属性 。 

3) 敏感 属性 : 包含 隐私 信息 的 属性 ， 如 疾病 、 工 资 等 。 

4) 非 敏感 属性 : 不 属于 以 上 三 种 属性 的 属性 。 


为 了 防止 攻击 者 利用 QI 进行 记录 链接 ， 进 而 标识 出 某 条 记录 或 获取 隐私 信息 ，Samarati 和 Sweeney[23] 提 出 了 k- 匿 名 的 概念 。 其 思想 
: 数据 在 QI 上 至 少 存在 k 个 不 可 区 分 的 记录 ， 使 攻击 者 不 能 判别 出 隐私 信息 所 属 的 具体 个 体 ， 从 而 保护 个 人 隐私 。 


各 


k- 匿 名 通过 参数 k 指 定 用 户 可 承受 的 最 大 信息 泄露 风险 ， 即 每 条 记录 被 泄露 的 风险 为 1/k。 如 表 6-9 所 示 ， 病 患 信息 为 合 师 ， 女 ，28},， 所 
患 疾病 被 泄露 的 风险 为 1/3， 因 此 攻击 者 无 法 确认 其 所 患 疾病 ， 保 护 了 患者 的 隐私 。 


表 6-9 匿名 的 病 患 表 





工作 性 别 疾病 
教师 女 肺结核 
教师 女 bites 
教师 女 WEE 











(2) 差分 隐私 


差分 隐私 保护 24 可 以 保证 在 数据 集中 添加 或 删除 一 条 数据 ， 不 会 影响 到 查询 输出 结果 ， 因 此 即使 在 最 坏 情 况 下 ， 攻 击 者 已 知 除 一 条 记录 
之 外 的 所 有 敏感 数据 ， 仍 可 以 保证 这 一 条 记录 的 敏感 信息 不 会 被 泄露 。 
定理 6.1 对 于 所 有 差别 至 多 为 一 个 记录 的 两 个 数据 集 D1 和 D,，Range (K) 表示 一 个 随机 函数 区 的 取 值 范围 ，Pr[ERg] 表 示 事 件 EK 的 披露 风 


险 ， 若 随机 函数 区 提供 e- 差 分 隐私 保护 ， 则 对 于 所 有 SE Range (K) ， 有 Pr [K (Di) ES] <exp (e) -Pr [K (D,) ES] 。 


可 见 ， 计 算出 的 披露 风险 取决 于 随机 化 函数 K 的 值 。 


下 面具 体 举 例 ( 见 表 6-10) 说 明 差 分 隐私 是 如 何 保护 数据 隐私 的 。 假 如 攻击 者 想 获 取 王 XX 的 工资 ， 并 且 已 知 王 XX 的 雇员 ID 为 
1410382， 但 攻击 者 只 能 获得 一 些 统计 信息 ， 无 法 直接 得 到 个 人 信息 。 因 此 ， 攻 击 者 可 以 对 工资 一 列 进行 求 和 运算 ， 然 后 删除 雇员 1D 为 
1410382 的 记录 ， 再 次 求 和 ， 两 者 之 差 即 为 王 XX 的 工资 。 差 分 隐私 保护 技术 通过 添加 少量 噪声 ， 既 可 保证 既 给 出 用 户 需 要 的 信息 ， 又 不 泄露 
个 体 的 隐私 数据 。 


表 6-10 ARLES 


雇员 ID 姓名 工资 姓名 工资 

1410380 韩 XX 9 000 陈 XX 10 000 
1410381 a XX 12 000 孙 XX 12 000 
1410382 + XX 15 000 Po 


差分 隐私 保护 方法 的 最 大 优点 是 ， 虽 然 基于 数据 失真 技术 ， 但 所 加 入 的 噪声 量 与 数据 集 大 小 无 天， 因此 对 于 大 型 数据 集 ， 仪 通过 添加 极 

















少量 的 噪声 就 能 达到 高 级 别 的 隐私 保护 。 


2. 数 据 重 构 技术 





数据 重 构 是 指 将 记录 信息 转换 为 其 他 数值 形式 ， 保 留 某 些 统计 学 特征 而 不 保留 真实 数值 。 通 常 将 原始 数据 记录 通过 适当 的 策略 映射 到 某 
一 度量 空间 内 。 目 前 应 用 比较 广泛 的 方法 是 Bloom Filter, 


Bloom Filterl*>| 是 一 种 空间 效率 很 高 的 随机 数据 结构 ， 它 可 以 将 属性 值 集合 转换 为 位 数组 。 初 始 状态 时 ，Bloom Filter 是 一 个 包含 m 位 
的 位 数组 ， 每 一 位 都 置 为 0。 为 了 表达 s={x1，x2，…，xn} 这 样 一 个 n 个 元 素 的 集合 ，Bloom Filter 使 用 k 个 相互 独立 的 散 列 函数 (hash 
function) ， 它 们 分 别 将 集合 中 的 每 个 元 素 映 射 到 {1，...，m} 的 范围 中 。 对 任意 一 个 元 素 x， 第 i 个 散 列 函数 映射 的 位 置 hi (x) 就 会 被 置 为 
1 (1<i<k) 。 

通过 Bloom Filter 得 到 的 位 数组 在 一 定 程度 上 代表 了 转换 前 的 记录 并 保护 了 记录 的 隐私 ， 但 转换 后 的 位 数组 并 不 是 绝对 安全 的 ， 其 无 法 
抵御 基于 频率 的 密码 学 分 析 。2013 年 Elizabeth A.Durham 提 出 了 一 种 利用 Bloom Filter 进 行 PPRL 的 可 以 抵御 基于 频率 的 密码 学 分 析 的 方 
法 [26l, 


3 数据 加 密 技术 


数据 加 密 技 术 [2 7 常用 的 一 种 方法 是 安全 多 方 计算 (Secure Multiparty Computation, SMC) 。 它 是 密码 学 中 的 一 种 ， 它 指 一 组 互 不 
信任 的 参与 者 在 不 泄露 各 自 隐私 信息 的 前 提 下 进行 的 多 方 合作 计算 。 


A+R 
FF > 





A+R+B 


A+R+B+C E 





图 6-8 安全 多 方 计算 示意 


下 面 通过 举例 来 阐述 安全 多 方 计算 的 基本 思想 ( 见 图 6-8) 。 假 如 有 三 个 参与 方 A、B、C， 要 对 其 中 的 数据 进行 安全 合计 ， 首 先 将 扰乱 
数据 R 传 入 A， 并 与 A 中 的 数据 进行 加 和 运算 ， 然 后 将 结果 传 入 B， 继 续 进行 加 和 运算 后 传 入 C， 参 与 方 C 无 法 得 知 A、B 中 的 数据 ， 继 续 进 行 加 
和 运算 后 传 回 参与 方 A， 减 去 扰乱 数据 R， 即 得 到 三 者 之 和 ， 该 过 程 中 任意 一 方 均 不 知道 其 他 参与 方 的 数据 。 


6.4.2 ”实体 识别 隐私 保护 算法 的 评估 


实体 识别 隐私 保护 算法 的 评估 可 以 从 两 方面 进行 。 一 方面 是 对 隐私 保护 程度 进行 评估 8， 另 一 方面 是 对 实体 识别 的 结果 进行 评估 。 以 上 
两 个 方面 存在 制约 关系 ， 即 隐私 保护 程度 越 高 ， 数 据 被 隐藏 的 越 多 ， 实 体 识别 结果 质量 就 越 低 。 因 此 ， 如 何 把 握 好 两 者 之 间 的 平衡 是 实体 识 


别 隐 私 保护 算法 研究 的 关键 。 
1. 隐 私 保护 程度 评估 


我 们 假设 经 过 隐私 保护 技术 处 理 的 数据 集 称 为 Masked Database (DM) ， 全 局 数据 集 称 为 G，DM 可 能 与 G 中 具有 相同 属性 值 的 记录 匹 
配 成 功 ， 进 而 导致 信息 泄露 。 从 该 角度 出 发 ， 给 出 了 泄露 风险 (DR) 的 定义 ( 见 图 6-9) 。DR 是 介 于 0.0 和 1.0 之 间 的 数字 ，0.0 代 表 绝对 安全 
(absolute privacy) ， 不 存在 信息 泄露 ; 0.25 代 表 低 可 信 级 别 (suspicion with low confidence level) ; 0.5 代 表 中 等 可 信和 级别 
(suspicion with moderate confidence level) ; 0.75 代 表 高 可 信 级 别 (suspicion with high confidence level) ; 1.0 代 表 完 全 暴露 
(provably exposed) ， 所 有 信息 均 被 泄露 。 


0.0 0.25 0.5 0.75 1.0 
L 1 1 | | 


绝对 安全 “” 低 可 信 级 别 ” 中 等 可 信 级 别 ”高 可 信 级 别 “完全 暴露 
图 6-9 ”泄露 风险 级 别 


泄露 风险 (DR) : 假设 aM 是 数据 集 DM 中 的 一 个 属性 ，ng 是 DM 与 G 中 具有 相同 属性 信 的 aM 属 性 值 的 个 数 ， 那 么 aM 被 泄露 的 可 能 性 是 
1/ng， 归 一 化 后 : 


_ 1/n—1/N 


EST (6. 43) 


P. la”) 


最 大 泄露 风险 : 指 DM 的 所 有 属性 中 泄露 风险 值 最 高 的 。 最 大 泄露 风险 有 助 于 限定 泄露 风险 值 来 保证 数据 的 隐私 ， 见 公式 (6.44) 。 


DRu = max (P.a) (6. 44) 


M 区 pM 
营销 泄露 风险 : 指 泄 露 风 险 为 1 的 属性 所 占 的 比例 ， 见 公式 (6.45) 。 营 销 泄 露 风险 对 于 统计 被 完全 泄露 的 属性 具有 重要 意义 。 
DR = Ka" E DPG = -01| (6.45) 


平均 泄露 风险 : 指 被 用 来 评估 泄露 概率 的 平均 值 ， 见 公式 (6.46) 。 


De P,(a™) (6. 46) 


MEDM 


2. 实 体 识别 结果 评估 


同 非 隐私 保护 下 的 实体 识别 结果 评估 一 致 ， 通 常 从 查 准 率 (Precision) 、 查 全 率 (Recall) 、F 测 度 (F-Measure) 三 方面 进行 评估 ， 


详情 参见 7.1 节 。 


65 本章 小 结 


本 章 介 绍 了 新 型 的 实体 识别 技术 ， 主 要 包括 基于 时 间 模 型 的 实体 识别 、 基 于 众 包 的 实体 识别 和 隐私 保护 下 的 实体 识别 。 基 于 时 间 模 型 的 
实体 识别 技术 主要 是 捕获 演化 属性 的 变化 情况 ， 核 心 研究 时 间 模 型 以 及 相应 的 聚 类 算法 ， 目 标 是 提高 具有 演化 特性 的 实体 的 识别 准确 性 。 基 
于 众 包 的 实体 识别 是 结合 人 的 智慧 提高 实体 识别 的 准确 性 ， 并 追求 利益 /代价 的 最 大 化 。 隐 私 保护 下 的 实体 识别 是 在 实体 识别 过 程 中 保护 个 人 
隐私 或 敏感 信息 不 被 泄露 。 本 部 分 内 容 是 近年 来 备 受 关注 的 热点 问题 ， 有 待 于 进行 深入 研究 。 
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Ble ”实体 识别 评 佑 


识别 评估 是 非常 重要 的 ， 同 时 也 是 非常 困难 的 。 困 难 是 因为 数据 集 真 实 的 识别 结果 难以 获得 ， 比 如 由 于 隐私 或 者 商业 问题 不 能 公开 数 
据 。 本 章 将 依次 介绍 实体 识别 结果 的 精确 性 (包括 准确 率 、 召 回 率 及 F 测 度 ) 、 分 块 技术 评估 和 常用 数据 集 。 


7.1 基于 记录 对 的 精确 性 评价 一 一 准确 率 、 召 回 率 和 F 测 度 


通过 实体 识别 方法 得 到 的 识别 结果 中 可 能 存在 两 类 错误 : OLA (False Positive) ， 被 识别 为 匹配 的 记录 对 实际 上 是 不 匹配 的 ; @ 假 伪 
(False Negative) ， 被 识别 为 不 匹配 的 记录 对 实际 上 是 匹配 的 。 


还 存在 另外 两 种 情况 : CAA (True Positive) ， 实 际 上 匹配 的 记录 对 被 识别 为 匹配 ; @ 真 伪 (True Negative) ， 实 际 上 不 匹配 的 记 
录 对 被 识别 为 不 匹配 。 在 实践 中 ， 真 伪 的 记录 对 通常 占 最 大 比例 。 图 7-1 描 述 了 上 述 四 种 情况 。 在 所 有 候选 记录 对 中 ， 一 些 记 录 对 是 匹配 的 


( 记 作 集合 A) ， 一 些 记 录 对 被 识别 为 匹配 的 ( 记 作 集合 A') 。 实 体 识别 方法 的 目的 是 使 集合 A 和 A 的 交集 最 大 化 。 


non pe 







所 有 的 数据 对 象 对 





真 伪 (TN) 


图 7-1 实体 识别 中 的 错误 种 类 


根据 上 述 的 四 种 情况 ， 将 所 有 候选 记录 对 组 成 的 集合 划分 成 四 个 子 集合 : 真 真 集合 TP、 真 假 集合 TF、 假 真 集合 FPP 和 假 伪 集 合 FN。 准 确 
率 和 召回 率 是 信息 检索 中 用 于 衡量 查询 结果 好 坏 的 指标 ， 这 两 个 指标 可 以 用 来 评价 实体 识别 的 结果 。 准确 率 可 以 表示 实体 识别 的 正确 性 ， 召 
回 率 可 以 表示 实体 识别 的 完整 性 。 接 下 来 利用 上 面 四 个 子 集 来 定义 准确 率 (precision) 和 召回 率 (recall) 。 
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准确 率 衡量 用 来 被 识别 为 匹配 的 记录 对 中 ， 真 正 匹配 的 记录 对 所 占 的 比例 ;召回 率 用 来 衡量 所 有 真正 匹配 的 记录 对 中 ， 被 算法 识别 为 匹 
配 的 记录 对 所 占 的 比例 。 加 强 实 体 识别 方法 中 的 约束 条 件 ， 如 提高 阔 值 ， 可 以 提高 准确 率 ; 然而 ， 过 强 的 约束 会 导致 召回 率 的 大 大 降低 。 放 
松 实体 识别 方法 中 的 约束 条 件 ， 如 降低 阔 值 ， 可 以 提高 召回 率 ; 然而 ， 过 松 的 约束 会 大 大 降低 准确 率 。 为 实现 准确 率 和 召回 率 的 平衡 ， 提 出 
了 F 测 度 ， 即 准确 率 和 召回 率 的 调和 平均 数 。 


_ 2X precision X recall 
. . (7. 3) 
precision + recall 


F 测 度 采 用 调和 平均 数 来 组 合 准确 率 和 召回 率 ， 而 不 采用 算术 平均 数 。 只 有 准确 率 和 召回 率 都 比较 高 的 时 候 ，F 测 度 才 会 比较 高 ， 这 样 可 
以 比较 准确 地 衡量 两 者 的 平衡 。 


7.2 分 块 技术 评价 


分 块 技术 的 目标 是 减少 实体 识别 中 的 记录 对 比较 次 数 。 本 小 节 将 介绍 四 个 分 块 技术 评价 指标 中 : 减少 率 (Reduction Ratio, RR) 、 记 
录 对 完整 性 (Pairs Completeness，PC) 、 记 录 对 质量 (Pairs Quality，PQ) 以 及 PC 和 PQ 的 调和 平均 数 。 将 所 有 记录 对 组 成 的 集合 划分 
为 匹配 的 记录 对 集合 nM 和 不 匹配 的 记录 对 集合 nN; 经 过 分 块 技术 处 理 后 ， 得 到 匹配 的 记录 对 集合 sM 和 不 匹配 的 记录 对 集合 SN， 则 


SM+SN<nM+nN。 


减少 率 RR 用 来 衡量 比较 空间 的 减 小 率 ， 即 分 块 技术 去 除 掉 的 记录 对 占 原来 总 记录 对 的 比例 。RR 越 大 ， 说 明 通 过 分 块 技术 生成 的 候选 记录 
对 越 少 。 然 而 ， 减 少 率 没有 考虑 生成 的 候选 对 的 质量 ， 即 这 些 候 选 对 包含 了 多 少 真 正 匹 配 的 记录 。 


RR = 1] — MES (7.4) 


nm + AN 


记录 对 完整 性 PC 是 指 通过 分 块 技术 生成 的 匹配 的 候选 记录 对 的 数目 与 真实 的 匹配 的 记录 对 的 数目 的 比值 。 这 个 指标 衡量 分 块 技术 是 否 漏 
掉 了 真实 匹配 的 记录 对 。PC 对 应 信息 检索 中 的 召回 率 。 


PC = ™ (7.5) 


MM 


记录 对 质量 PQ 是 指 通过 分 块 技术 生成 的 候选 记录 对 中 ， 匹 配 的 候选 记录 对 所 占 的 比例 。 如 果 PQ 值 较 高 ， 说 明 分 块 技术 是 高 效 的 ， 有 效 
地 去 除了 不 匹配 的 记录 对 。PQ 对 应 信息 检索 中 的 准确 率 。PC 和 PQ 的 调和 平均 数 f 可 以 更 综合 地 反应 分 块 技术 的 好 坏 。 


PQ= —“— 7.6 
Q SM 十: SN ( ) 


_ 2x PC X PQ 


[eo (7.7) 


7.3 ”常用 数据 集 


前 文中 的 评估 方法 都 是 基于 数据 集 的 真实 的 匹配 结果 。 然 而 ， 在 实践 中 ， 由 于 种 种 原因 (比如 过 高 的 人 力 成 本 ) ， 真 实 的 匹配 结果 非常 
难以 获得 。 给 定 一 个 大 小 为 n 的 数据 集 ， 如 果 进 行人 工 判定 ， 需 要 进行 n? 次 判断 ， 因 此 是 非常 耗费 人 力 的 。 当 前 ， 存 在 一 些 数据 集 已 经 由 人 
工 标注 出 真实 的 匹配 结果 ， 这 样 的 数据 集 的 规模 通常 不 大 。 另 外 ， 合 成 的 数据 集 也 经 常用 于 实体 识别 评估 ， 合 成 的 数据 集 重复 率 可 以 人 工控 
制 ， 规 模 可 以 比较 大 。 


7.3.1 ”真实 数据 集 


真实 数据 集 对 于 评 佑 实体 识别 方法 的 价值 非常 大 。 真 实数 据 集中 存在 的 错误 类 型 、 错 误 分 布 以 及 重复 记录 分 布 是 合成 数据 集 难 以 完全 复 
制 的 。 然 而 ， 真 实 的 数据 集 常常 是 不 容易 获取 或 公开 使 用 的 ， 比 如 客户 信息 数据 由 于 隐私 保护 原因 不 宜 公 开 。 


实体 识别 中 比较 常用 的 一 个 数据 集 是 Cora 数 据 集 ， 这 是 一 个 引文 数据 集 ， 抽 取 自 Cora 学 术 搜索 、Cora 数 据 集 包括 了 1295 条 引文 记录 ， 
这 些 记录 描述 了 122 篇 不 同 的 文章 。 引 文 记录 的 属性 有 标题 、 作 者 、 卷 、 工 作 单 位 、 会 议 或 期 刊 、 地 址 、 出 版 商 、 年 份 、 月 份 、 页 码 和 编辑 
等 。 Restaurant 数 据 集 是 一 个 饭店 信息 的 数据 集 ， 总 共有 846 条 饭店 记录 。 每 条 饭店 记录 的 属性 包括 名 称 、 地 址 、 城 市 、 类 型 和 电话 号 码 。 
RIDDLE (http://www.cs.utexas.edu/users/ml/riddle/) 网 络 文 件 夹 中 收藏 了 上 述 两 个 数据 集 。 详 细 信 息 请 见 表 7-1。 





表 7-1 真实 数据 集 














数据 集 大 小 匹配 对 领域 
Cora 1295 17 184 引文 
Restaurant 864 112 酒店 
DBLP-ACM 4910 2224 引文 
DBLP-Scholar 66 879 5347 引文 
Amazon-GoogleProducts 4589 1300 电 商 
Abt-Buy 2173 1097 电 商 


如 表 7-1 所 示 ，Rahm 等 提供 了 四 个 人 工 标注 的 数据 集 ! 外 ， 包 括 两 个 引文 数据 集 (DBLP-ACM 和 DBLP-Scholar) 与 两 个 电 商 数据 集 
(Amazon-GoogleProducts 和 Abt-Buy) 。 引 文 数据 集 的 属性 包括 标题 、 作 者 、 会 议 或 期 刊 和 年 份 。DBLP-ACM 数 据 集 包括 4910 条 记录 ， 
其 中 有 2224 个 匹配 记录 对 ; DBLP-Scholar 数 据 集 包括 66879 条 记录 ， 其 中 有 5347 个 匹配 记录 对 。 电 商 数据 集 的 属性 包括 产品 名 称 、 产 品 描 
述 、 制 造 商 和 价格 。Amazon-GoogleProducts 数 据 集 包括 4589 条 记录 ， 其 中 有 1300 个 匹配 记录 对 ; Abt-Buy 数 据 集 包 括 2173 条 记录 ， 其 


中 有 1097 个 匹配 记录 对 。 


7.3.2 ”数据 生成 工具 


真实 的 数据 集 的 精确 识别 结果 通常 难以 获得 ， 因 此 实体 识别 的 研究 者 们 提出 利用 合成 的 数据 集 来 评估 实体 识别 结果 。 合 成 数据 集 通常 是 
基于 一 个 干净 的 真实 数据 集 ， 通 过 一 系列 操作 生成 的 。UIS 数 据 生成 器 BB 基于 真实 的 人 口 统计 数据 (美国 ) 信息 ， 属 性 包括 社保 号 、 姓 名 、 
地 址 、 城 市 和 邮编 。UI1S 数 据 生成 器 可 以 控制 生成 数据 集 的 规模 、 字 段 的 错误 类 型 和 数据 分 布 ， 生 成 重复 记录 的 字段 错误 类 型 有 字符 插入 、 
删除 、 蔡 换 和 倒置 等 。 在 RIDDLE (http://www.cs.utexas.edu/users/ml/riddle/) 网 络 文 件 夹 中 可 以 找到 U1S 数 据 生成 器 。 此 外 ， 还 有 


FEBRL 和 DirtyXML 等 数据 生成 器 由， 工作 原理 与 UlS 基 本 相似 。 
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识别 评估 是 评价 实体 识别 结果 的 评价 准则 。 本 章 介绍 了 实体 识别 结果 的 精确 性 评估 方法 (包括 准确 率 、 召 回 率 及 F 测 度 ) 、 分 块 评估 方 
法 和 常用 评测 数据 集 。 
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Boe ”总 结 与 展望 


实体 识别 是 数据 质量 和 数据 集成 的 一 个 重要 方面 ， 它 对 于 后 续 的 数据 处 理 、 分 析 和 挖掘 不 可 或 缺 。 实 体 识别 就 是 把 脏 数 据 集中 描述 相同 
实体 的 数据 对 象 找 出 来 。 实 体 识别 在 日 常 的 生活 、 生 产 和 科研 中 有 着 广泛 的 应 用 ， 包 括 医疗 卫生 、 人 口 普查 、 客 户 关 系 管理 、 网 购 比 价 、 犯 
罪 及 欺诈 侦查 、 关 联 的 开放 数据 和 引文 数据 库 等 。 普 通 民 众 、 商 业 组 织 、 社 会 公共 部 门 和 政府 部 门 等 都 离 不 开 实 体 识别 技术 。 实 体 识别 已 经 
具有 几 十 年 的 研究 历史 ， 很 多 不 同 的 研究 领域 都 出 现 了 实体 识别 的 研究 工作 ， 比 如 统计 学 、 数 据 库 、 数 据 挖 掘 、 人 工 智能 、 社 交 网 络 和 语义 
网 等 。 经 过 许多 研究 者 的 努力 ， 实 体 识别 的 研究 成 果 非 常 卓 著 ， 主 要 包括 数据 对 象 的 属性 相似 度 比较 算法 、 分 块 技术 、 基 于 机 器 学 习 的 实体 
识别 方法 、 基 于 关系 的 实体 识别 方法 以 及 一 些 新 型 的 实体 研究 (如 基于 众 包 的 实体 识别 方法 、 基 于 时 间 特 征 的 实体 识别 方法 和 隐私 保护 下 的 
实体 识别 方法 等 ) 以 及 相应 的 实体 识别 的 评估 方法 。 本 书 详细 地 介绍 了 当前 实体 识别 的 研究 情况 。 


8.1 实体 识别 研究 总 结 


实体 识别 中 最 基本 的 操作 是 比较 数据 对 象 的 属性 相似 度 ， 利 用 属性 相似 度 来 计算 数据 对 象 的 相似 性 ， 进 而 判断 数据 对 象 是 否 匹配 。 由 于 
数据 类 型 的 多 样 性 ， 通 常 应 用 多 种 相似 度 算法 ， 以 适合 不 同 的 数据 类 型 和 应 用 领域 。 在 实体 识别 研究 中 ， 典 型 基于 相似 度 算法 ， 结 合 机 器 学 
习 以 及 数据 间 关 联 关系 提出 相应 的 实体 识别 方法 ， 追 求实 体 识 别 的 高 效率 和 高 精度 。 


实体 识别 的 效率 是 实体 识别 研究 中 的 一 个 重要 方面 ， 尤 其 是 大 数据 环境 下 。 由 于 实体 识别 的 复杂 度 是 平方 级 的 ， 对 于 大 型 的 数据 集 来 
说 ， 开 销 巨 大 。 为 了 提高 实体 识别 的 效率 ， 研 究 者 提出 了 分 块 技术 ， 分 块 技术 的 目标 是 将 不 可 能 匹配 的 数据 对 象 对 移 除 掉 。 当 前 的 分 块 技术 
包括 传统 的 分 块 方法 和 滑动 窗口 方法 、 自 适应 的 滑动 窗口 方法 、 基 于 Canopy 聚 类 的 分 块 方 法 、 迭 代 的 分 块 方法 和 面向 异 构 信息 空间 的 分 块 
技术 (如 Meta-Blocking) 。 相 应 地 提出 了 分 布 式 的 实体 识别 方法 。 


实体 识别 方法 典型 分 为 基于 模型 的 实体 识别 方法 和 基于 算法 的 实体 识别 方法 。 基 于 模型 的 实体 识别 方法 是 应 用 机 器 学 习 理论 进行 识别 ， 
主要 分 为 两 类 : 基于 分 类 器 的 实体 识别 方法 和 基于 概率 图 模型 的 实体 识别 方法 。 前 者 将 实体 识别 看 作 一 个 分 类 问题 ， 采 用 的 分 类 方法 包括 决 
策 树 、 贝 叶 斯 分 类 器 、 支 持 向 量 机 、 主 动 学习 、 误 差 逆 传 播 、 遗 传 编程 等 。 后 者 将 实体 之 间 的 内 在 联系 表达 为 概率 图 模型 ， 通 过 推理 和 学 习 
来 实现 联合 式 实体 识别 ， 具 体 包括 基于 马尔 可 夫 逻 辑 网 络 的 实体 识别 和 基于 条 件 随 机 场 的 实体 识别 。 


基于 算法 的 实体 识别 方法 中 ， 早 期 主要 采用 属性 相似 度 或 混合 多 种 相似 度 的 属性 加 权 求 和 方法 来 识别 重复 数据 记录 ， 具 有 一 定局 限 性 。 
在 大 数据 时 代 ， 数 据 呈 现 关 联 性 ， 如 社交 了 网络、 学术 合作 网 络 等 。 典 型 利用 数据 间 的 关联 关系 来 辅助 实体 识别 ， 以 此 提升 实体 识别 的 准确 
性 。 关 联 数据 可 以 分 为 两 类 : 多 类 型 关联 数据 和 单 类 型 关联 数据 。 多 类 型 关联 数据 ， 如 引文 数据 ， 包 含 多 种 不 同 的 数据 对 象 (如 作者 、 文 





章 、 会 议 等 ) ， 彼 此 之 间 存 在 依赖 关系 ， 当 识别 出 一 种 数据 对 象 会 促进 与 其 关联 的 其 他 数据 对 象 的 匹配 ， 称 之 为 联合 式 实体 识别 ， 包 括 基于 
关系 聚 类 的 联合 式 实体 识别 方法 和 复杂 信息 空间 中 的 联合 式 实体 识别 方法 。 单 类 型 的 关联 数据 ， 如 社交 了 网络， 数据 对 象 (如 用 户 ) 之 间 的 关 
联 强度 可 以 用 于 衡量 数据 对 象 的 相似 性 ， 从 而 帮助 实体 识别 ， 特 别 是 用 于 解决 名 字 消 层 或 实体 消 上 层 。 此 类 方法 有 基于 社交 关系 的 名 字 消 层 、 
基于 实体 关系 的 实体 消 层 和 基于 异 构 实体 关系 的 实体 消 层 。 


随 着 数据 产生 和 消费 方法 的 改变 ， 出 现 了 一 些 新 的 实体 识别 需求 ， 包 括 基于 众 包 的 实体 识别 方法 、 基 于 时 间 特 征 的 实体 识别 方法 和 隐私 
保护 下 的 实体 识别 方法 等 。 随 着 互联 网 技术 的 发 展 和 众 包 的 流行 ， 研 究 者 提出 利用 众 包 来 弥补 机 器 算法 的 不 足 ， 比 如 在 包含 图 片 属性 的 实体 
识别 中 ， 人 的 判断 往往 比 机 器 更 准确 。 在 现实 生活 中 ， 很 多 数据 的 属性 与 时 间 相关 ， 一 些 属性 值 会 随 着 时 间 而 演化 ， 如 和 人 的 职位 、 雇 佣 单 位 
等 。 针 对 这 个 特点 ， 研 究 者 提出 一 些 基 于 时 间 模 型 的 实体 识别 方法 ， 从 而 提高 实体 识别 的 精确 性 。 随 着 时 代 信息 技术 和 互联 网 技术 的 发 展 ， 
隐私 保护 成 为 产业 界 和 学 术 界 的 一 个 热点 问题 。 在 涉及 个 人 隐私 (如 医疗 记录 、 社 保 信息 等 ) 和 国家 安全 (如 恐怖 分 子 信息 ) 等 领域 的 实体 
识别 中 ， 需 要 考虑 隐私 保护 的 问题 。 为 此 ， 研 究 者 提出 一 些 基 于 隐私 保护 的 实体 识别 方法 ， 如 基于 数据 扰乱 、 数 据 转换 和 数据 加 密 等 的 方 
法 。 


实体 识别 研究 的 一 个 不 可 缺少 的 方面 是 结果 评估 。 针 对 识别 结果 精确 性 ， 一 般 利用 准确 率 、 召 回 率 和 F 测 度 三 个 指标 来 评估 实体 识别 方 
法 。 针 对 分 块 技术 ， 一 般 利用 减少 率 、 对 象 对 完整 性 和 对 象 对 质量 等 指标 来 评估 实体 识别 方法 。 评 佑 用 到 的 数据 集 包括 真实 数据 集 和 合成 数 
据 集 。 


8.2 ”新 型 实体 识别 研究 展望 


8.2.1 基于 时 间 模 型 的 实体 识别 


已 有 基于 时 间 模 型 的 实体 识别 方法 是 结合 演化 属性 的 实体 识别 ， 提 高 实体 识别 的 准确 性 。 已 有 研究 能 够 很 好 地 解决 记录 集 内 的 实体 演化 
情况 ， 但 还 存在 一 定 的 不 足 ， 未 来 将 从 以 下 几 方 面 展开 研究 。 

1) 已 有 的 捕捉 实体 演化 的 模型 对 实体 内 属性 不 一 致 情况 进行 了 深入 研究 ， 但 是 对 于 实体 间 属 性 一 致 的 研究 还 不 够 深入 。 已 有 方法 大 多 
应 用 实体 内 属性 不 一 致 的 模型 来 间接 地 捕捉 实体 间 属 性 一 致 的 情况 ， 而 已 有 捕捉 实体 间 的 属性 值 一 致 情况 的 实体 间 属 性 一 致 模型 在 准确 率 上 
还 不 够 精确 。 另 外 ， 由 于 捕捉 实体 间 属 性 一 致 的 情况 难于 捕捉 实体 内 属性 不 一 致 的 情况 ， 因 此 ， 下 一 步 将 侧重 实体 间 属 性 不 一 致 的 情况 展开 


深入 研究 。 


2) 已 有 基于 时 间 模 型 的 实体 识别 方法 很 少 考虑 数据 源 的 整体 质量 。 由 于 数据 集 本 身 存 在 一 定 的 更 新 延迟 ， 而 数据 的 新 鲜 程度 直接 影响 
训练 的 时 间 模 型 的 质量 ， 且 影响 聚 类 算法 的 匹配 准确 度 。 下 一 步 应 关注 数据 源 对 实体 识别 的 影响 ， 例 如 ， 保 证 数据 源 的 新 鲜 性 、 数 据 集 的 准 
确 性 和 完整 性 ， 进 而 提高 匹配 算法 的 准确 性 。 


3) 基于 时 间 模 型 的 实体 识别 方法 主要 通过 捕捉 实体 演化 的 模型 来 捕捉 实体 演化 的 情况 ， 其 识别 准确 性 还 有 待 提 高 。 下 一 步 将 关注 更 为 


精确 的 聚 类 算法 的 研究 ， 来 弥补 实体 演化 模型 的 不 足 ， 提 升 匹配 结果 的 准确 性 。 


8.2 ”新 型 实体 识别 研究 展望 


8.2.1 基于 时 间 模 型 的 实体 识别 


已 有 基于 时 间 模 型 的 实体 识别 方法 是 结合 演化 属性 的 实体 识别 ， 提 高 实体 识别 的 准确 性 。 已 有 研究 能 够 很 好 地 解决 记录 集 内 的 实体 演化 
情况 ， 但 还 存在 一 定 的 不 足 ， 未 来 将 从 以 下 几 方 面 展开 研究 。 


1) 已 有 的 捕捉 实体 演化 的 模型 对 实体 内 属性 不 一 致 情况 进行 了 深入 研究 ， 但 是 对 于 实体 间 属 性 一 致 的 研究 还 不 够 深入 。 已 有 方法 大 多 
应 用 实体 内 属性 不 一 致 的 模型 来 间接 地 捕捉 实体 间 属 性 一 致 的 情况 ， 而 已 有 捕捉 实体 间 的 属性 值 一 致 情况 的 实体 间 属 性 一 致 模型 在 准确 率 上 
还 不 够 精确 。 另 外 ， 由 于 捕捉 实体 间 属 性 一 致 的 情况 难于 捕捉 实体 内 属性 不 一 致 的 情况 ， 因 此 ， 下 一 步 将 侧重 实体 间 属 性 不 一 致 的 情况 展开 


深入 研究 。 


2) 已 有 基于 时 间 模 型 的 实体 识别 方法 很 少 考虑 数据 源 的 整体 质量 。 由 于 数据 集 本 身 存 在 一 定 的 更 新 延迟 ， 而 数据 的 新 鲜 程度 直接 影响 
训练 的 时 间 模 型 的 质量 ， 且 影响 聚 类 算法 的 匹配 准确 度 。 下 一 步 应 关注 数据 源 对 实体 识别 的 影响 ， 例 如 ， 保 证 数据 源 的 新 鲜 性 、 数 据 集 的 准 
确 性 和 完整 性 ， 进 而 提高 匹配 算法 的 准确 性 。 


3) 基于 时 间 模 型 的 实体 识别 方法 主要 通过 捕捉 实体 演化 的 模型 来 捕捉 实体 演化 的 情况 ， 其 识别 准确 性 还 有 待 提 高 。 下 一 步 将 关注 更 为 
精确 的 聚 类 算法 的 研究 ， 来 弥补 实体 演化 模型 的 不 足 ， 提 升 匹配 结果 的 准确 性 。 


8.2.2 ”基于 众 包 的 实体 识别 


基于 众 包 的 实体 识别 的 基本 思想 是 在 基于 机 器 进行 识别 的 基础 上 ， 结 合 人 的 智慧 来 提高 实体 识别 的 准确 性 。 针 对 混合 人 机 的 基于 众 包 的 
实体 识别 方法 中 ， 在 侧重 任务 生成 、 任 务 分 解 和 任务 结果 处 理 三 方面 提出 了 一 些 解决 方案 ， 但 还 存在 一 定 的 局 限 性 ， 主 要 体现 在 : 主流 方 
法 是 基于 相似 度 的 方法 和 草 梳 技术 实现 ， 并 不 能 很 好 地 处 理 专 业 领 域 的 具体 问题 ; @ 目 前 主要 采用 细 粒 度 的 传递 天 系 辅助 实体 识别 ， 代 价 较 
大 ; @@ 仅 利用 众 包 的 返回 结果 辅助 识别 候选 对 ， 没 有 有 效 利 用 众 包 的 结果 信息 。 本 部 分 将 侧重 以 下 几 个 方面 展开 研究 。 


1. 在 任务 生成 方面 


能 否 合理 地 生成 众 包 任 务 ， 关 系 到 处 理 过 程 的 时 间 和 人 金钱 代价 问题 。 这 不 仅 体现 在 处 理 过 程 中 ， 也 希望 能 为 我 们 的 实体 识别 选择 最 佳 的 
众 包 流程 。 如 何 将 实体 识别 任务 转化 成 众 包 判断 问题 ， 以 及 尽 可 能 地 提高 方法 的 可 扩展 性 、 减 少 用 户 对 专业 数据 处 理 人 员 的 依赖 成 为 研究 的 
重点 。 侧 重 采 用 基于 机 器 学 习 方 法 ， 能 够 根据 不 同 的 特征 自 适 用 调整 。 


2. 在 任务 分 解 方面 


众 包 是 对 问题 的 人 工 处 理 ， 最 终 需要 区 给 人 工 去 判断 ， 因 此 需要 考虑 人 的 处 理 习 惯 和 推理 能 力 。 采 用 合适 的 任务 分 解 方法 和 选择 合适 的 
粒度 ， 将 相似 的 问题 组 合 在 一 个 任务 中 ， 可 以 有 效 地 整合 结果 ， 降 低 任务 难度 。 侧 重 结合 多 粒度 如 传递 聚 类 辅助 实体 识别 ， 将 灵活 而 有 效 地 
缩减 实体 识别 空间 。 


3. 在 任务 结果 处 理 方面 


基于 众 包 的 实体 识别 并 不 是 简单 的 对 众 包 返 回 结果 的 整合 和 使 用 ， 更 多 地 体现 在 任务 的 顺序 选择 和 结果 特征 提取 、 质 量 控制 等 过 程 上 。 
目前 的 方法 还 不 能 很 好 地 对 任务 结果 进行 处 理 。 侧 重 有 效 利 用 众 包 结果 数据 如 抽取 众 包 结果 的 特征 信息 等 ， 进 一 步 提 高 机 器 识别 的 准确 率 。 


8.2.3 ”隐私 保护 下 的 实体 识别 


“大 数据 ”时 代 下 ， 个 人 数据 不 可 避免 地 透明 化 和 网 络 化 。 人 们 在 享有 大 数据 共享 带 来 便捷 化 、 精 准 化 的 同时 ， 数 据 安全 、 个 人 信息 保 
护 也 逐渐 成 为 重要 隐患 。 数 据 安全 已 成 为 国家 安全 的 新 重点 ， 个 人 隐私 已 经 成 为 国家 治理 的 新 难题 。 实 体 识别 作为 实现 大 数据 共享 的 关键 技 
术 ， 研 究 出 如 何在 保证 个 人 隐私 的 前 提 下 实现 实体 识别 技术 具有 广泛 而 深远 的 现实 意义 。 然 而 现 有 PPRL 方 法 的 一 些 局 限 严 重 阻碍 了 其 在 现实 
世界 中 的 应 用 ， 因 此 解决 现 有 PPRL 方 法 中 存在 的 问题 ， 将 其 更 好 地 应 用 到 现实 世界 中 已 成 为 未 来 研究 的 趋势 与 挑战 ， 典 型 如 下 。 


1. 现 有 PPRL 方 法 可 扩展 性 差 ， 无 法 应 用 于 大 数据 集 


随 着 科技 的 进步 ， 数 据 正 以 前 所 未 有 的 速度 增长 和 累积 ， 大 数据 时 代 已 经 到 来 。 数 据 量 巨大 是 大 数据 的 特点 之 一 ， 而 目前 的 大 多 数 PPRL 
方法 只 适用 于 传统 的 数据 库 ， 降 低 了 PPRL 方 法 的 实际 应 用 价值 。 因 此 ， 研 究 出 适用 于 大 数据 集 的 方法 以 及 提高 方法 的 可 扩展 性 是 或 待 解决 的 
问题 。 为 了 提高 可 扩展 性 ， 可 以 在 实体 识别 之 前 ， 先 利用 隐私 保护 的 分 块 技术 减少 一 部 分 匹配 对 数量 ， 来 提高 实体 匹配 的 效率 。 因 此 设计 出 
安全 有 效 的 分 块 技术 成 为 研究 重点 之 一 。 


2. 现 有 PPRL 方 法 容错 性 差 


现实 世界 中 的 数据 质量 参差 不 齐 ， 很 多 记录 都 存在 拼写 错误 等 问题 。 因 此 在 处 理 现实 世界 中 的 数据 时 ， 容 错 性 较 差 的 PPRL 方 法 则 会 丢失 
较 多 真实 匹配 的 记录 ， 算 法 性 能 大 幅 下 降 。 为 了 防止 方法 容错 性 差 导 致 的 性 能 下 降 ， 和 平衡 好 容错 性 与 准确 性 之 间 的 关系 ， 应 侧重 研究 出 高 
效 、 准 确 的 隐私 保护 方法 和 相似 度 度量 方法 。 


3. 现 有 PPRL 方 法 还 只 局 限于 两 个 数据 源 


现实 世界 中 很 多 应 用 实体 识别 的 场景 都 不 只 局 限于 两 个 数据 源 ， 例 如 整合 多 家 医院 的 患者 信息 等 。 而 目前 对 于 多 方 (三 个 及 以 上 ) 数据 
源 的 研究 还 处 于 起 步 阶 段 ， 大 多 数 适 用 于 两 个 数据 源 的 PPRL 方 法 并 不 适用 于 多 个 数据 源 。 而 且 找到 一 个 可 以 合理 度量 多 条 记录 相似 度 的 方法 
是 解决 多 方 PPRL 问 题 的 关键 ， 但 这 种 方法 并 不 容易 被 找到 。 因 此 ， 应 侧重 研究 适用 于 现实 世界 的 多 方 PPRL 技 术 。 


8.3 ”研究 挑战 


尽管 实体 识别 研究 成 果 卓 著 ， 当 前 的 实体 识别 研究 中 依然 存在 一 些 挑战 。 
1. 数 据 缺 失 处 理 


在 很 多 数据 源 中 ， 一 些 数据 对 象 的 某 些 属性 值 缺 失 。 造 成 这 种 情况 的 原因 较 多 ， 比 如 录入 者 不 知道 该 属性 值 或 录入 者 认为 该 属性 没有 录 
入 的 必要 等 。 部 分 属性 值 的 缺失 ， 为 实体 识别 的 进行 制造 了 困难 。 整 体 来 说， 根据 属性 缺失 的 具体 原因 ， 可 以 适当 调整 相似 度 计算 算法 或 匹 
配 决定 算法 的 相关 细节 。 


2. 多 数据 源 的 识别 


在 一 些 特定 的 应 用 领域 ,需要 对 两 个 以 上 的 数据 源 进行 实体 识别 。 比 如 ， 多 个 政府 部 门 联合 起 来 侦查 欺诈 犯罪 情况 ， 需 要 将 各 个 部 门 持 
有 的 数据 匹配 起 来 ， 以 便 作 整体 的 数据 分 析 和 挖掘 。 在 多 数据 源 中 ， 描 述 相同 实体 的 数据 对 象 的 录入 时 间 很 可 能 不 同 ， 导 致 了 一 些 时 间 相 关 
的 属性 值 的 不 同 (如 家 庭 地 址 、 工 作 单位 、 职 位 或 女士 的 姓氏 等 ) 。 同 时 ， 不 同 数据 源 的 组 织 结 构 和 格式 很 可 能 不 同 ， 数 据 对 象 包含 的 属性 
也 很 可 能 是 不 相同 的 ， 以 及 加 上 各 数据 源 对 自身 数据 隐私 保护 的 需求 等 。 多 数据 源 的 以 上 特点 为 实体 识别 的 进行 带 来 了 新 的 挑战 。 


3. 分 布 式 实体 识别 


在 大 数据 时 代 ， 数 据 量 达 到 了 PB、EB 或 ZB 的 级 别 。 大 数据 环境 下 ， 面 向 大 数据 的 实体 识别 方法 仍 将 是 研究 者 关注 的 研究 点 之 一 。 例 
如 ， 基 于 spark 或 MapReduce 的 分 布 式 实体 识别 。 分 布 式 实体 识别 方法 通常 基于 分 块 技术 ， 以 达到 提高 实体 识别 效率 的 目的 。 一 方面 ， 由 于 
现实 世界 中 数据 分 布 通常 都 是 非 均 匀 的 分 布 ， 导 致 分 块 通常 是 大 小 不 一 ， 这 给 分 布 式 实体 识别 带 来 一 大 挑战 : 负载 均衡 问题 。 为 了 提高 分 布 
式 结 点 的 处 理 效率 和 利用 率 ， 需 要 解决 如 何 更 合理 地 分 配子 识别 任务 的 问题 。 另 一 方面 ， 常 用 的 分 块 技术 通常 会 生成 带 元 余 的 分 块 ， 并 且 在 
解决 负载 均衡 过 程 中 也 会 生成 新 的 元 余 ， 因 此 需要 提出 有 效 的 元 余 去 除 技术 来 进一步 提高 识别 效率 。 


